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这 是 一 本 介绍 如 何 解决 棘手 问题 的 书 。 机 器 学 习 是 计算 技术 的 一 项 令 人 叹为观止 的 应 用 ， 
因为 它 要 解决 的 很 多 问题 都 源 自 科幻 小 说 。 机 器 学 习 算 法 可 用 于 解决 语音 识别 、 映 射 、 推 
荐 以 及 疾病 检测 等 复杂 问题 。 机 器 学 习 的 应 用 领域 浩瀚 无 址 ， 也 正 因为 如 此 它 才 这 样 引 人 
入 胜 。 


然而 ， 这 种 灵活 性 也 使 得 机 器 学 习 技术 令 人 望而却步 。 它 的 确 可 以 解决 许多 问题 ,但 如 何 
知晓 我 们 求解 的 是 否 是 正确 的 问题 ， 或 者 是 否 应 最 先 求解 某 个 问题 呢 ? 此 外 ， 令 人 诅 形 的 
是 ， 大 部 分 学 术 编 码 标准 都 不 够 严密 。 

即便 是 在 今天 ， 人 们 仍 未 对 如 何 编写 高 质量 的 机 器 学 习 代 码 给 予 足够 的 关注 ， 这 是 无 比 遗 
憾 的 。 将 一 种 观念 在 整个 行业 广泛 传播 的 能 力 取决 于 有 效 沟通 的 能 力 。 如 果 我 们 编写 的 代 
码 本 身 就 质量 低劣 ,那么 息 怕 不 会 有 很 多 人 愿意 聆听 我 们 的 讨论 。 


本 书 便 是 我 对 于 该 问题 的 回答 。 我 试图 按照 容易 理解 的 方式 为 大 家 讲授 机 器 学 习 。 这 门 学 
科 本 身 难度 就 不 小 ， 况 且 我 们 还 需要 阅读 代码 ， 尤 其 是 那些 极 难 理解 的 古老 C 实现 ， 无 疑 
更 是 雪上 加 霜 。 


很 多 读者 会 对 本 书 采用 Ruby 而 非 Python 感到 非常 困惑 。 我 的 理由 是 用 Ruby 编写 测试 程 
序 是 一 种 诠释 你 所 写 代码 的 美妙 方式 。 本 质 上 ， 这 本 通 篇 采用 测试 驱动 方法 的 书 讲述 的 是 
如 何 沟通 ， 具 体 说 来 是 如 何 与 机 器 学 习 这 个 奇妙 的 世界 沟通 。 


从 本 书 可 学 到 的 知识 


应 该 说 ， 本 书 对 机 器 学 习 的 介绍 并 不 全 面 。 因 此 ， 我 向 你 强烈 推荐 Peter Flach 编著 的 
Machine Learning: The Art and Science of Algorithms that Make Sense of Data (Cambridge 
University Press) “。 如 果 你 希望 读 一 些 数 学 味道 较 浓 的 书 , 可 参阅 Tom Mitchell 的 Machine 


注 1: 中 文 版 即将 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 
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Learning 系列 。 此 外 ， 你 还 可 参考 Stuart Russel 和 Peter Norvig 编写 的 有 关 人 工 智能 的 名 著 
Artificial Intelligence: A Modern Approach, 3rd Edition (Prentice Hall) 。 


阅读 完 本 书 之 后 ， 你 并 不 会 获得 机 器 学 习 的 博士 学 位 ， 但 我 希望 本 书 能 向 你 传授 足够 的 知 
识 ， 帮 助 你 开始 研究 如 何 利用 机 器 学 习 技 术 解 决 涉及 数据 的 现实 问题 。 对 于 求解 问题 的 方 
法 以 及 如 何在 基础 层面 上 使 用 它们 ， 本 书 会 提供 大 量 相关 示例 。 


你 还 将 掌握 如 何 解 决 那些 比 普通 的 单元 测试 更 为 模糊 的 复杂 问题 。 


AS, ‘= hs 
本 书 的 阅读 方 ; 
阅读 本 书 的 最 佳 方法 是 找到 一 些 能 够 让 你 感到 兴奋 的 例子 。 我 力图 每 一 章 都 介绍 一 些 这 样 
的 例子 ， 虽 然 有 时 无 法 尽 如 和 人 人意。 我 不 希望 本 书 过 于 偏重 理论 ， 而 是 希望 通过 示例 向 你 介 
绍 机 器 学 习 能 够 解决 的 一 些 具体 问题 ， 以 及 我 处 理 数据 的 方法 。 
在 本 书 的 大 多 数 章 中 ， 我 都 试图 在 一 开始 便 引 入 一 个 商业 案例 ， 之 后 开始 研究 一 个 可 求解 
的 问题 ， 直 到 结尾 。 本 书 是 一 部 短篇 读物 ， 因 为 我 希望 你 能 够 专注 于 理解 书 中 的 代码 ， 并 
PRAIA iL, MARTE 


= 
本 书 读者 
本 书面 向 的 读者 包括 三 个 群体 : 开发 人 员 、CTO 以 及 商业 分 析 师 。 


开发 人 员 已 经 熟知 如 何 编写 代码 ， 且 想 更 多 地 了 解 机 器 学 习 这 个 激动 人 心 的 领域 。 他 们 拥 
有 在 计算 环境 中 求解 问题 的 背景 ， 可 能 使 用 过 Ruby 编写 代码 ， 也 可 能 从 未 接触 过 这 种 语 
言 。 他 们 是 本 书 的 主要 读者 群 ， 但 本 书 在 写作 时 也 兼顾 了 CTO 和 商业 分 析 师 。 


CTO 是 那些 真正 希望 了 解 如 何 利用 机 器 学 习 技 术 提 升 公司 业务 的 人 。 他 们 可 能 听 说 过 天 均 
值 算法 、 天 近邻 算法 ， 但 不 知道 这 些 算 法 的 适用 性 。 商 业 分 析 师 与 之 相似 ， 只 是 不 像 CTO 
那样 关注 技术 细节 。 为 了 这 两 个 读者 群 ， 我 在 每 章 的 开头 都 准备 了 一 个 商业 案例 。 


作者 联系 方式 


如 果 你 喜欢 我 之 前 所 做 的 演讲 ， 或 想 为 革 个 问题 寻求 帮助 ， 欢 迎 通过 电子 邮件 与 我 联系 。 
我 的 邮箱 是 matt@matthewkirk.com。 为 了 增进 我 们 之 间 的 联系 ， 如 果 你 来 到 西雅图 地 区 ， 
且 我 们 的 日 程 允 许 的 话 ， 我 非常 乐意 请 你 喝 一 杯 咖啡 。 


如 果 和 希望 查看 本 书 的 所 有 代码 ， 可 从 GitHub 站 点 http://github.com/thoughtfulml 免费 下 载 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 


。 楷体 
表示 新 术语 或 突出 强调 的 内 容 。 
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。 SER (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 
句 和 关键 字 等 。 


。 加 粗 等 宽 字体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


图 标 表 示 提 示 或 建议 。 
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图 标 表示 一 般 注 记 。 


该 图 标 表示 警告 或 警示 。 
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图 标 表 示 非 常 重要 的 警告 ， 请 仔细 阅读 。 
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使 用 代码 示例 
补充 材料 (代码 示例 、 练 习 等 ) 可 以 从 http://github.com/thoughtfulml 下 载 。 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
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mi 
x. 


的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Thoughtful Machine Learning by Matthew Kirk (O’Reilly). 
Copyright 2015 Matthew Kirk, 978-1-449-37406-8”。 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范 目 
oreilly.com 与 我 们 联系 。 


， 欢 迎 你 通过 permissions@ 


or 


Safari® Books Online 


Safari Books Online (http://www.safaribooksonline.com) 是 应 运 
Safa ri. 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 顶级 
Books Online 技术 和 商务 作家 的 专业 作品 。 技 术 专家 、 软 件 开 发 人 员 、Web 
设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问题 、 学 
习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O’Reilly Media, Prentice 
Hall Professional、 Addison-Wesley Professional、 Microsoft Press、Sams、Que、Peachpit 


Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press. Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


AY + + 
联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 (100035) 
奥 菜 利 技术 咨询 (北京) 有 限 公 司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://shop.oreilly.com/product/0636920032298.do 


对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions @ oreilly.com 


要 了 解 更 多 O'Reilly 图书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia 
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第 1 章 


测试 驱动 的 机 器 学 习 


伟大 的 科学 家 既是 梦想 家 ， 也 是 怀疑 论 者 。 在 现代 历史 中 ， 科 学 家 们 取得 了 一 系列 重大 突 
破 ， 如 发 现 地 球 引 力 、 登 上 月 球 、 发 现 相 对 论 等 。 所 有 这 些 科 学 家 都 有 一 个 共同 点 ， 那 就 
是 他 们 都 有 着 远大 的 梦想 。 然 而 ， 在 完成 那些 壮举 之 前 ， 他 们 的 工作 无 不 经 过 了 周密 的 检 
验 和 验证 。 

如 今 ， 爱 因 斯 坦 和 牛顿 已 离 我 们 而 去 ， 但 所 幸 我 们 处 在 一 个 大 数据 时 代 。 随 着 信息 时 代 的 


到 来 ， 人 们 迫切 需要 找到 将 数据 转化 为 有 价值 的 信息 的 方法 。 这 种 需求 的 重要 性 已 日 益 贞 
显 ， 而 这 下 是 数据 科学 和 机 器 学 习 的 使 命 。 


机 器 学 习 是 一 门 充 满 魅 力 的 学 科 ， 因 为 它 能 够 利用 信息 来 解决 像 人 脸 识别 或 笔迹 检测 这 样 
的 复杂 问题 。 很 多 时 候 ， 为 完成 这 样 的 任务 ， 机 器 学 习 算法 会 采用 大 量 的 测试 。 典 型 的 测 
试 包括 提出 统计 假设 、 确 定 国 值 、 随 着 时 间 的 推移 将 均 方 误差 最 小 化 等 。 理 论 上 ， 机 器 学 
习 算法 具备 坚实 的 理论 基础 ， 可 从 过 去 的 错误 中 学 习 ， 并 随时 间 的 推移 将 误差 最 小 化 。 


然而 ， 我 们 人 类 却 无 法 做 到 这 一 点 。 机 器 学 习 算 法 虽 能 将 误差 最 小 化 ， 但 有 时 我 们 可 能 
“指挥 失误 "， 没 能 令 其 将 “真正 的 误差 ”最 小 化 ， 我 们 甚至 可 能 在 自己 的 代码 中 犯 一 些 不 
易 罕 觉 的 错误 。 因 此 ， 我 们 也 需要 通过 一 些 测试 来 发 现 自己 所 犯 的 错误 ， 并 以 某 种 方式 
来 记录 我 们 的 进展 。 用 于 编写 这 类 测试 的 最 为 流行 的 方法 当 属 测试 驱动 开发 〔Test-Driven 
Development，TDD)。 这 种 “测试 先行 ”的 方法 已 成 为 编程 人 员 的 一 种 最 佳 实践 。 然 而 ， 
这 种 最 佳 实践 有 时 在 开发 环境 中 却 并 未 得 到 运用 。 


采用 驱动 测试 开发 (为 简便 起 见 ， 下 文中 统称 TDD) 有 两 个 充分 的 理由 。 首 先 ， 虽 然 在 主 
动 开 发 模式 中 ，TDD 需要 花费 至 少 15%~35% 的 时 间 ， 却 能 够 排除 多 达 90% 的 程序 缺陷 


(详情 请 参阅 http://research.microsoft.com/en-us/news/features/nagappan-100609.aspx). Hex, 
采用 TDD 有 利于 将 代码 准备 实现 的 功能 记录 下 来 。 当 代码 的 复杂 性 增加 时 ， 人 们 对 规格 
说 明 的 需求 也 愈 发 强烈 ， 尤 其 是 那些 需要 依据 分 析 结 果 制 定 重大 决策 的 人 。 


哈佛 大 学 的 两 位 学 者 Carmen Reinhart 和 Kenneth Rogoff 曾 撰写 过 一 篇 经 济 学 论文 ， 大意 是 
说 那些 所 承担 的 债务 数额 超过 其 国内 生产 总 值 90% 以 上 的 国家 的 经 济 增长 遭遇 了 严重 滑 
坡 。 后 来 ，Paul Ryan 在 总 统 竞 选中 还 多 次 引用 了 这 个 结论 。2013 年 ， 麻 省 大 学 的 三 位 研 
究 者 发 现 该 论文 的 计算 有 误 ， 因 为 在 其 分 析 中 有 相当 数量 的 国家 未 被 考虑 。 


这 样 的 例子 还 有 很 多 ， 只 是 可 能 情况 不 像 这 个 案例 这 样 严重 。 这 个 案例 说 明 ， 统 计 分 析 
中 的 一 处 错误 可 能 会 对 一 位 学 者 的 学 术 声誉 造成 打击 。 一 步 出 错 可 能 会 导致 多 处 错误 。 
上 面 两 位 哈佛 学 者 本 身 都 具有 多 年 的 研究 经 历 ， 而 且 这 篇 论文 的 发 表 也 经 过 了 严格 的 同 
行 评审 ， 但 仍然 出 现 了 这 样 令 人 遗憾 的 错误 。 这 样 的 事情 在 任何 人 身上 都 有 可 能 发 生 。 
使 用 TDD 将 有 助 于 降低 犯 类 似 错误 的 风险 ， 而 且 可 以 帮助 这 些 研究 者 避免 陷入 万 分 尴 砍 
的 境地 。 


1.1 TDD 的 历史 


1999 年 ，Kent Beck 通过 其 极限 编程 (extreme programming) 方面 的 工作 推广 了 TDD. 
TDD 的 强大 源 自 其 先 定 义 目 标 再 实现 这 些 目 标的 能 力 。TDD 的 实践 步骤 如 下 : 首先 编写 
一 项 无 法 通过 的 测试 (由 于 此 时 尚 无 功能 代码 ， 因 此 测试 会 失败 )， 再 编写 可 使 其 通过 的 
功能 代码 ， 最 后 重 构 初始 代码 。 一 些 人 依据 众多 测试 库 的 颜色 将 其 称 为 “ 红 - 绿 - 重 构 ” 
(red-green-refactor) 。 红 色 表 示 编 写 一 项 最 初 无 法 通过 的 测试 ， 而 你 需要 记录 自己 的 目标 ， 
绿色 表示 通过 编写 功能 代码 使 测试 通过 。 最 后 ， 对 初始 代码 进行 重 构 ， 直 到 自己 对 其 设计 
感到 满意 。 


在 传统 开发 实践 中 ， 测 试 始终 是 中 流 研 柱 ， 但 TDD 强调 的 是 “测试 先行 ”， 而 非 在 开发 周 
期 即将 结束 时 才 考 虑 测试 。 瀑 布 模型 采用 的 是 验收 测试 (acceptance test) ， 涉 及 许多 人 员 ， 
通常 是 大 量 最 终 用 户 (而 非 开 发 人 员 )， 且 该 测试 发 生 在 代码 实际 编写 完毕 之 后 。 如 果 不 
将 功能 覆盖 范围 作为 考虑 因素 ， 这 种 方法 看 起 来 的 确 很 好 。 很 多 时 候 ， 质 量 保证 专业 人 员 
仅 对 他 们 感 兴趣 的 方面 进行 测试 ， 而 非 进 行 全 面 测试 。 


1.2 TDD 与 科学 方 ; 

TDD 之 所 以 如 此 引 人 瞩 目 ， 部 分 原因 在 于 它 能 够 与 人 们 及 其 工作 方式 保持 良好 的 同步 。 它 
所 遵循 的 “假设 -测试 - 理论 探讨 ”流程 使 之 与 科学 方法 有 诸多 相似 之 处 。 

科学 需要 反复 试验 。 科 学 家 在 工作 中 也 都 是 首先 提出 某 个 假设 ， 接 着 检验 该 假设 ， 最 后 将 


这 些 假 设 升华 到 理论 高 度 。 
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我 们 也 可 将 “假设 一 测试 -理论 探讨 ”这 个 流程 称 为 “ 红 一 绿 一 重 构 ”。 


与 科学 方法 一 样 ， 对 于 机 器 学 习 代码 ， 测 试 (检验 ) 先行 同样 适用 。 大 多 数 机 器 学 习 践 行 
者 都 会 运用 某 种 形式 的 科学 方法 ， 而 TDD 会 强制 你 去 编写 更 加 清晰 和 稳健 的 代码 。 实 际 
上 ，TDD 与 科学 方法 的 关系 绝 不 止 于 相似 。 本 质 上 ，TDD 是 科学 方法 的 一 个 子 集 ， 理 
有 三 : 一 是 它 需 要 构建 有 效 的 逻辑 命题 ， 二 是 它 通过 文档 共享 结果 ;， 三 是 它 采 用 闭环 反馈 
的 工作 机 制 。 


TDD 之 美 在 于 你 也 可 利用 它 进 行 试 验 。 很 多 时 候 ， 首 先 编写 测试 代码 时 ， 我 们 都 抱 有 一 个 
这 念 ， 即 最 初 测试 中 过 到 的 那些 错误 最 终 一 定 可 被 修正 ， 但 实际 上 我 们 并 非 一 定 要 遵循 这 
种 方式 。 我 们 可 以 利用 测试 来 对 那些 可 能 永远 不 会 被 实现 的 功能 进行 试验 。 对 于 许多 不 易 
解决 的 问题 ， 按 照 这 种 方式 进行 测试 十 分 有 用 。 


1.2.1 TDD 可 构建 有 效 的 逻辑 命题 
科学 家 们 在 使 用 科学 方法 时 ， 首 先 尝 试 着 去 求解 一 个 问题 ， 然 后 证 明 方 法 的 有 效 性 。 问 题 
求解 需要 创造 性 猜想 ， 但 如 果 没 有 严格 的 证 明 ， 它 只 能 算是 一 种 “信念 ”。 


柏拉图 认为 ， 知 识 是 一 种 被 证 明 为 正确 的 信念 。 我 们 不 但 需要 正确 的 信念 ， 而 且 也 需要 能 
够 证 明 其 正确 的 确 溺 证 据 。 为 证 明 我 们 的 信念 的 正确 性 ， 我 们 需要 构建 一 个 稳定 的 逻辑 命 
题 。 在 逻辑 学 中 ， 用 于 证 明 某 个 观点 是 否 正 确 的 条 件 有 两 种 一 一 必要 条 件 和 充分 条 件 。 


必要 条 件 是 指 那些 如 果 缺 少 了 它们 假设 便 无 法 成 立 的 条 件 。 例 如 ， 全 票 通过 或 飞行 前 的 检 
查 都 属于 必要 条 件 。 这 里 要 强调 的 是 ， 为 确保 我 们 所 做 的 测试 是 正确 的 ， 所 有 的 条 件 都 必 
须 满足 。 


与 必要 条 件 不 同 ， 充 分 条 件 意 味 着 某 个 论点 拥有 充足 的 证 据 。 例 如 ， 打 雷 是 内 电 的 充分 条 
件 ， 因 为 二 者 总 是 相伴 出 现 的 ， 但 打雷 并 不 是 内 电 的 必要 条 件 。 很 多 情形 下 ， 充 分 条 件 是 
以 统计 假设 的 形式 出 现 的 。 它 可 能 不 够 完善 ， 但 要 证 明 我 们 所 做 测试 的 合理 性 已 然 足够 充 


分 了 。 


为 论证 所 提出 的 解 的 有 效 性 ， 科 学 家 们 需要 使 用 必要 条 件 和 充分 条 件 。 科 学 方法 和 TDD 
都 需要 严格 地 使 用 这 两 种 条 件 ， 以 使 所 提出 的 一 系列 论点 成 为 一 个 有 机 整体 。 然 而 ， 二 者 
的 不 同 之 处 在 于 ， 科 学 方法 使 用 的 是 假设 检验 和 公理 ， 而 TDD 使 用 的 则 是 集成 和 单元 测 
试 (参见 表 1-1)。 
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1-1; TDD 与 科学 方法 的 比较 

科学 方法 TDD 
必要 条 件 AM 纯粹 的 功能 测试 
充分 条 件 ”统计 假设 检验 ”单元 和 集成 测试 


示例 1: 借助 公理 和 功能 测试 完成 证 明 

法 国 数学 家 费 马 于 1637 年 提出 著名 的 猜想 : 对 于 大 于 2 的 任意 整数 n, 关于 a、b、c 的 方 
fea" + b" 十 c" 不 存在 正 整 数 解 。 表 面 上 看 ， 这 好 像 是 一 个 比较 简单 的 问题 ， 而 且 据 说 费 马 
声称 他 已 经 完成 了 证 明 。 他 在 读书 笔记 中 写 道 :“ 我 确信 已 发 现 了 一 种 美妙 的 证 法 ， 可 惜 
这 里 空白 的 地 方太 小 ， 写 不 下 。 


此 后 的 358 年 间 ， 该 猜想 一 直 未 得 到 彻底 证 实 。1995 年 ， 英 国 数学 家 安德鲁 ' 怀 尔 斯 
(Andrew Wiles) (#3) (in ZL (Galois) 变换 和 椭圆 曲线 完成 了 费 马 大 定理 的 最 终 证 明 。 他 长 
达 100 页 的 证 明 虽 然 称 不 上 优雅 ， 但 每 一 步 都 经 得 起 严格 推 殴 。 每 一 小 节 的 论证 都 承前启后 。 


这 100 页 证 明 中 的 每 一 步 都 建立 在 之 前 已 被 人 们 证 明 的 公理 和 假设 的 基础 之 上 ， 这 与 功能 
测试 套件 何其 相似 ! 用 程序 设计 术语 来 说 ， 怀 尔 斯 在 其 证 明 中 使 用 的 所 有 公理 和 断言 都 可 
作为 功能 测试 。 这 些 功能 测试 只 不 过 是 以 代码 形式 展现 的 公理 和 断言 ， 每 一 步 证 明 都 是 下 
一 小 市 的 输入 。 


大 多 数 情 况 下 ， 软 件 生产 过 程 中 并 不 缺少 测试 。 很 多 时 候 ， 我 们 所 编写 的 测试 都 是 关于 代 
码 的 随意 的 断言 。 许 多 情形 下 ， 为 了 使 用 以 前 的 样 例 ， 我 们 只 对 打雷 而 不 对 闪电 进行 测 
试 。 即 ， 我 们 的 测试 只 关注 了 充分 条 件 ， 而 忽略 了 必要 条 件 。 


示例 2: 借助 充分 条 件 、 单 元 测试 和 集成 测试 完成 证 明 
与 纯 数学 不 同 ， 充 分 条 件 只 关心 是 否 有 足够 的 证 据 来 支持 某 个 因果 关系 。 下 面 以 通货 膨胀 
为 例 来 说 明 。 自 19 世纪 开始 ， 人 们 已 经 在 研究 这 种 经 济 学 中 的 神秘 力量 。 要 证 明 通 货 膨 
胀 的 存在 ， 我 们 所 面临 的 问题 是 并 无 任何 公理 可 用 。 


不 过 ， 我 们 可 以 依据 来 自 观察 的 充分 条 件 来 证 明 通货 膨胀 的 确 存在 。 我 们 观察 过 经 济 数 据 
并 从 中 分 离 出 已 知 正确 的 因素 ， 根 据 此 经 验 ， 我 们 发 现 随 着 时 间 的 推移 ， 尽 管 有 时 也 会 下 
降 ， 但 长 期 来 看 经 济 是 趋 于 增长 的 。 通 货 膨 胀 的 存在 可 以 只 通过 我 们 之 前 所 做 的 具有 一 致 
性 的 观察 来 证 明 。 


在 软件 开发 领域 ， 经 济 学 中 的 这 类 充分 条 件 对 应 集成 测试 。 集 成 测试 时 在 测试 一 段 代码 的 
首要 行为 。 集 成 测试 并 不 关心 代码 中 微小 的 改动 ， 而 是 观察 整个 程序 ， 看 所 期 望 的 行为 是 
否 能 够 如 期 发 生 。 同 样 ， 如 果 将 经 济 视 为 一 个 程序 ， 则 我 们 可 断言 通货 膨胀 或 通货 紧缩 是 
存在 的 。 


TE 1: 即 我 们 熟知 的 费 马 大 定理 。 一 一 译 者 注 
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1.2.2 TDD 要 求 你 将 假设 以 文字 或 代码 的 形式 记录 下 来 
学 术 机 构 通常 要 求教 授 发 表 其 研究 成 果 。 虽 然 有 很 多 人 抱怨 各 大 学 过 于 重视 发 表 文 章 ， 但 
甚 实 这 样 做 是 合理 的 : 发 表 是 一 种 使 研究 成 果 成 为 永恒 的 方法 。 如 果 教 授 们 决定 独自 研究 
并 取得 重大 突破 ， 却 不 将 其 成 果 发 表 ， 那 么 这 种 研究 将 无 任何 价值 。 


TDD 同样 如 此 : 测试 在 同行 评审 中 能 够 发 挥 重要 的 作用 ， 也 可 作为 一 个 版 本 的 文档 。 实 际 
上 很 多 时 候 ， 在 使 用 TDD 时 ， 文 档 并 不 是 必需 的 。 由 于 软件 具有 抽象 性 ， 且 总 处 在 变化 
之 中 ， 因 此 如 果 某 人 没有 将 其 代码 文档 化 或 对 代码 进行 测试 ， 将 来 它 便 极 有 可 能 被 修改 。 
如 有 果 缺 乏 能 够 保证 这 些 代码 按 特定 方式 运行 的 测试 ， 则 当 新 的 编程 人 员 参 与 到 该 软件 的 开 
发 和 维护 工作 中 时 ， 将 无 法 保证 他 不 会 改动 代码 。 


1.2.3 TDD 和 科学 方法 的 闭环 反馈 机 制 

科学 方法 和 TDD 均 采用 闭环 反馈 的 机 制 。 当 某 人 提出 一 项 假设 ， 并 对 其 进行 检验 (测试 ) 
时 ， 他 会 找到 关于 自己 所 探索 问题 的 更 多 信息 。 对 于 TDD， 也 同样 如 此 ， 某 个 人 对 其 所 想 
进行 测试 ， 之 后 当 他 开始 编写 代码 时 ， 对 于 如 何 进行 便 可 以 做 到 心中 有 数 。 


总 之 ，TDD 是 一 种 科学 方法 。 我 们 提出 一 些 假设 ， 对 其 进行 检验 (测试 )， 之 后 再 重新 检 
视 。TDD 践 行者 们 遵循 的 也 是 相同 的 步骤 ， 即 首先 编写 无 法 通过 的 测试 ， 接 着 找到 解决 方 
R, 然后 再 对 这 个 解决 方案 进行 重 构 。 


示例 : 同行 评审 

许多 领域 ， 无 论 是 学 术 期 刊 、 图 书 出 版 ， 还 是 程序 设计 领域 ， 都 有 自己 的 同行 评审 ， 且 形式 
各 异 。 原 因 编 辑 (reason editor) 之 所 以 极 有 价值 ， 是 因为 他 们 对 于 一 部 作品 或 一 篇 文章 而 言 
是 第 三 方 ， 能 够 给 出 客观 的 反馈 意见 。 在 科学 界 ， 与 之 对 应 的 则 是 对 期 刊 文章 的 同行 评审 。 


TDD 则 不 同 ， 因 为 第 三 方 是 一 个 程序 。 当 某 人 编写 测试 时 ， 程 序 以 代码 的 形式 表示 假设 和 
需求 ， 而 且 是 完全 客观 的 。 在 其 他 人 查看 代码 之 前 ， 这 种 反馈 对 于 程序 开发 人 员 检 验 其 假 
设 是 很 有 价值 的 。 此 外 ， 它 还 有 助 于 减少 程序 缺陷 和 功能 缺失 。 


然而 ， 这 并 不 能 缓解 机 器 学 习 或 数学 模型 与 生 俱 来 的 问题 ， 它 只 是 定义 了 处 理 问 题 和 寻求 
足够 好 的 解 的 基本 过 程 。 


1.3 机 器 学 习 中 的 风险 


对 于 开发 过 程 而 言 ， 虽 然 使 用 科学 方法 和 TDD 可 提供 良好 的 开端 ， 但 我 们 仍然 可 能 遇 到 
一 些 棘手 的 问题 。 一 些 人 虽然 遵循 了 科学 方法 ， 但 仍然 得 到 了 错误 的 结果 ，TDD 可 帮助 我 
们 创建 更 高 质量 的 代码 ， 且 更 加 客观 。 接 下 来 的 几 个 小 市 将 介绍 机 器 学 习 中 经 常会 遇 到 的 
几 个 重要 问题 ; 
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数据 的 不 稳定 性 
RWE 

。 过 拟 合 

未 来 的 不 可 预测 性 


1.3.1 数据 的 不 稳定 性 

机 器 学 习 算 法 通过 将 离 群 点 最 少 化 来 尽量 减少 数据 中 的 不 稳定 因素 。 但 如 果 错 误 的 来 源 是 
人 为 失误 ， 该 如 何 应 对 ?如 果 错 误 地 表示 了 原本 正确 的 数据 ， 最 终 将 使 结果 偏离 真实 情 
况 ， 从 而 产生 偏 倚 。 


对 我 们 所 拥有 的 不 正确 信息 的 数量 予以 攻 虑 ， 这 是 一 个 重要 的 现实 问题 。 例 如 ， 如 果 我 们 
使 用 的 某 个 应 用 程序 编程 接口 (API) 将 原本 表示 二 元 信息 的 0 和 1 修改 为 -1 和 +1， 则 
这 种 变化 对 于 模型 的 输出 将 是 有 害 的 。 对 于 时 间 序 列 ， 其 中 也 可 能 存在 一 些 缺 失 数据 。 这 
种 数据 中 的 不 稳定 性 要 求 我 们 找到 一 种 测试 数据 问题 的 途径 ， 以 减少 人 为 失误 的 影响 。 


1.3.2 RHE 

如 果 模 型 未 考虑 足够 的 信息 ， 从 而 无 法 对 现实 世界 精确 建 模 ， 将 产生 姑 拟 合 (underfitting ) 
现象 。 例 如 ， 如 果 仅 观察 指数 曲线 上 的 两 点 ， 我 们 可 能 会 断言 这 里 存在 一 个 线性 关系 (如 
1-1 所 示 )。 但 也 有 可 能 并 不 存在 任何 模式 ， 因 为 具有 两 个 点 可 供 参 芳 。 


K+ 
指数 曲线 
||1.17*x +1.57 -------- 


2.5 


4 
误差 Mm A 
4 


1-1: 在 [-1,+1] 区 间 内 ， 直 线 可 对 指数 曲线 取得 良好 的 逼近 效果 
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不 幸 的 是 ， 如 果 对 该 区 间 ([-1,+1]) EGSR, BCS aS eB, Fem fA 
是 显著 增长 的 逼近 误差 (如 图 1-2 所 示 )。 


| + + ; ， 
指数 曲线 
站 1.17* x +1.57 -------- 
误差 I 
4x1087 
3x10°+ lL 
= 
2x108> lL 
1x108+ I 
04 + i | 
E Ei 0 10 20 
oF 


1-2: 在 [-20,20] 区 间 内 ， 直 线 将 无 法 拟 合 指数 曲线 

统计 学 中 有 一 个 称 为 power 的 测度 ， 它 表示 无 法 找到 一 个 假 负 例 (false negative) 的 概率 。 
当 power 的 值 增 大 时 ， 假 负 例 的 数量 将 减少 。 然 而 ， 真 正 影响 该 测度 的 是 样本 规模 。 如 果 
样本 规模 过 小 ， 将 无 法 获取 足够 的 信息 ， 从 而 无 法 得 到 一 个 良好 的 解 。 


k 


1.3.3 Hs 
样本 数 太 少 是 很 不 理想 的 一 种 情形 ， 此 时 还 存在 对 数据 产生 过 拟 合 (overfitting) 的 风险 。 
仍 以 相同 的 指数 曲线 为 例 ， 比 如 共有 来 自 这 条 指数 曲线 的 30 000 个 采样 点 。 如 果 我 们 试 
图 构建 一 个 拥有 300 000 个 算 子 的 国 数 ， 便 是 对 指数 曲线 过 拟 合 ， 甚 实际 上 是 记忆 了 全 冯 
30 000 个 数据 点 。 这 是 有 可 能 出 现 的 ， 但 如 果 有 一 个 新 数据 点 偏离 了 那些 抽样 ， 则 这 个 
过 拟 合 模型 对 该 点 将 产生 较 大 的 误差 。 


表面 看 来 缓解 模型 欠 拟 合 的 最 佳 途径 是 为 其 提供 更 多 的 信息 ， 但 实际 上 这 本 身 可 能 就 是 一 
个 难以 解决 的 问题 。 数 据 越 多 ， 通 常 意味 着 噪声 越 多 ， 问 题 也 越 多 。 使 用 过 多 的 数据 和 过 
于 复杂 的 模型 将 使 学 习 到 的 模型 只 能 在 该 数据 集 上 得 到 合理 的 结果 ， 而 对 其 他 数据 集 将 几 
平 完全 不 可 用 。 
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1.3.4 未 来 的 不 可 预测 性 

机 器 学 习 非 常 适合 不 可 预测 的 未 来 ， 因 为 大 多 数 算法 都 需要 从 新 息 〈 即 新 的 信息 ) 中 学 
习 。 但 当 新 息 到 来 时 ， 其 形式 可 能 是 不 稳定 的 ， 而 且 会 出 现 一 些 之 前 未 预料 到 的 新 问 
题 。 我 们 并 不 清楚 什么 是 未 知 的 。 在 处 理 新 息 时 ， 有 了 时 很 难 预 测 我 们 的 模型 是 否 仍 能 正 
常 工作 。 


1.4 为 降低 风险 应 采用 的 测试 
既然 我 们 面临 着 若干 问题 ， 如 不 稳定 的 数据 、 从 拟 合 的 模型 、 过 拟 合 的 模型 以 及 未 来 数据 
的 不 确定 性 ， 到 底 应 如 何 应 对 ?好 在 有 一 些 通用 指导 方针 和 技术 (被 称 为 启发 式 策略 ) 可 
循 ， 若 将 其 写 入 测试 程序 ， 则 可 降低 这 些 问题 发 生 的 风险 。 


1.4.1 利用 接 缝 测试 减少 数据 中 的 不 稳定 因素 

在 其 著作 Working Effectively with Legacy Code (Prentice Hall 出 版 ) 中 ，Michale Feathers 在 
处 理 遗 留 代 码 时 引入 了 接 缝 测试 (testing seams) 这 个 概念 。 接 颖 是 指 一 个 代码 库 的 不 同 部 
分 在 集成 时 的 连接 点 。 在 遗留 代码 中 ， 很 多 时 候 都 会 遇 到 这 样 的 代码 : 其 内 部 机 制 不 明 ， 
但 当 给 定 某 些 输入 时 ， 其 行为 可 预测 。 机 器 学 习 算法 虽 不 等 同 于 遗留 代码 ， 但 二 者 有 相似 
之 处 。 对 待机 器 学 习 算 法 ， 也 应 像 对 待 遗留 代码 那样 ， 将 其 视 为 一 个 黑箱 。 


数据 将 流入 机 器 学 习 算 法 ， 然 后 再 从 中 流出 。 可 通过 对 数据 输入 和 输出 进行 单元 测试 来 检 
验 这 两 处 “ 接 颖 ”， 以 确保 它们 在 给 定 误差 容 限 内 的 有 效 性 。 


示例 : 对 神经 网 络 进行 接 缝 测试 

假设 你 准备 对 一 个 神经 网 络 模型 进行 测试 。 你 知道 神经 网 络 的 输入 数据 取 值 需要 介 于 0 和 
1 之 间 ， 且 你 希望 所 有 数据 的 总 和 为 1。 当 数据 之 和 为 1 时， 意味 着 它 相当 于 一 个 百分比 。 
例如 ， 如 有 果 你 有 两 个 小 玩具 和 三 个 陀螺 ， 则 数据 构成 的 数组 将 为 (2/5,3/5)。 由 于 我 们 希望 
确保 输入 的 信息 为 正 ， 且 和 为 1， 因 此 在 调试 套件 中 编写 了 下 列 测 试 代码 : 


it 'needs to be between 0 and 1' do 
@weights = NeuralNetwork.weights 
@weights.each do |point| 
(0..1).must_include(point) 
end 
end 


it 'has data that sums up to 1' do 
@weights = NeuralNetwork.weights 
Q@weights.reduce(&:+).must_equal 1 
end 


接 颖 测试 是 一 种 定义 代码 片段 之 间接 口 的 好 方法 。 虽 然 这 个 例子 非常 简单 ， 但 请 注意 ， 当 
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数据 的 复杂 性 增加 时 ， 这 些 接 颖 测试 将 变 得 更 加 重要 。 新 加 入 的 编程 人 员 接 触 到 这 段 代码 
时 ， 可 能 不 会 意识 到 你 所 做 的 这 些 周密 考虑 。 


1.4.2 通过 交叉 验证 检验 拟 合 效果 

交叉 验证 是 一 种 将 数据 划分 为 两 部 分 (训练 集 和 验证 集 ) 的 方法 ， 如 图 1-3 所 示 。 训 练 数 
据 用 于 构建 机 器 学 习 模型 ， 而 验证 数据 则 用 于 验证 模型 能 否 取得 期 望 的 结果 。 这 种 策略 提 
升 了 我 们 找到 并 确定 模型 中 潜在 错误 的 能 


+ . i 
交叉 验证 错误 率 ”一 一 一 
训练 错误 率 = 
最 优 复杂 度 点 * 


+ + + + ane 7 t — 
20 40 60 80 100 
模型 的 复杂 度 


图 1-3: 我 们 真正 的 目标 是 将 交叉 验证 错误 率 或 真实 错误 率 最 小 化 


训练 专属 于 机 器 学 习 世 界 。 由 于 机 器 学 习 算法 的 目标 是 将 之 前 的 观测 映射 为 
结果 ， 因 此 训练 非常 重要 。 这 些 算法 会 依据 人 们 所 收集 到 的 数据 进行 学 习 ， 
因此 如 果 缺 少 用 于 训练 的 初始 数据 集 ， 该 算法 将 百 无 一 用 。 


交换 训练 集 和 验证 集 ， 有 助 于 增加 验证 次 数 。 你 需要 将 数据 集 一 分 为 二 。 第 一 次 验证 中 ， 
将 集合 1 作为 训练 集 ， 而 将 集合 2 作为 验证 集 ， 然 后 将 二 者 交换 ， 再 进行 第 二 次 验证 。 根 
据 拥 有 的 数据 量 ， 你 可 将 数据 划分 为 若干 更 小 的 集合 ， 然 后 再 按照 前 述 方式 进行 交 又 验 
证 ， 如 果 你 拥有 的 数据 足够 多 ， 则 可 在 任意 数量 的 集合 上 进行 交叉 验证 。 


大 多 数 情况 下 ， 人 们 会 选择 将 验证 数据 和 训练 数据 分 为 两 部 分 ， 一 部 分 用 于 训练 模型 ， 而 
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另 一 部 分 用 于 验证 训练 结果 在 真实 数据 上 的 表现 。 例 如 ， 假 设 你 正在 训练 一 个 语言 模型 ， 
利用 隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 对 语言 的 不 同 部 分 进行 标注 ， 则 你 
会 希望 将 该 模型 的 误差 最 小 化 。 


示例 : 对 模型 进行 交叉 验证 

依据 我 们 训练 好 的 模型 ， 训 练 错误 率 大 致 为 5%， 但 是 当 我 们 引入 训练 集 之 外 的 数据 时 ， 

错误 率 可 能 会 毅 升 到 15%。 这 恰恰 说 明了 使 用 经 划分 的 数据 集 的 重要 性 ， 好比 复 式 记 账 之 
会 计 ， 对 于 机 器 学 习 而 言 这 一 点 是 极为 必要 的 。 例 如 : 


def compare(network, text_file) 
misses = 0 
hits = 0 


sentences.each do |sentence| 
if model.run(sentence).classification == sentence.classification 
hits += 1 
else 
misses += 1 
end 
end 


assert misses < (0.05 * (misses + hits)) 
end 


def test_first_half 
compare(first_data_set, second_data_set) 
end 


def test_second_half 
compare(second_data_set, first_data_set) 
end 


首先 将 数据 划分 为 两 个 子 集 ， 这 个 方法 消除 了 可 能 由 机 器 学 习 模型 中 不 恰当 的 参数 引起 的 
一 些 常见 问题 。 这 是 在 问题 成 为 任何 代码 库 的 一 部 分 之 前 ， 找 到 它们 的 绝 佳 途径 。 


1.4.3 ”通过 测试 训练 速度 降低 过 拟 合 风险 

奥 卡 姆 剃刀 准则 (Occam’s Razor) 强调 对 数据 建 模 的 简单 性 ， 并 且 认 为 越 简单 的 解 越 好 。 
这 直接 意味 着 “避免 对 数据 产生 过 拟 合 ” 。 越 简单 的 解 越 好 这 种 观点 与 过 拟 合 模型 通常 只 
是 记忆 了 它们 的 输入 数据 存在 一 些 联系 。 如 果 能 够 找到 更 简单 的 解 ， 它 将 发 现 数据 中 的 一 
些 模式 ， 而 非 只 是 解析 之 前 记忆 的 数据 。 


一 种 可 间接 度量 机 器 学 习 模 型 复杂 度 的 指标 是 它 所 需 的 训练 时 长 。 例 如 ,假设 你 为 解决 某 
个 问题 ， 对 两 种 不 同 的 方法 进行 了 测试 ， 其 中 一 种 方法 需要 3 个 小 时 才能 完成 训练 ， 而 另 
一 种 方法 只 需 30 分 钟 。 通 常 认为 花费 训练 时 间 越 少 的 那个 模型 可 能 越 好 。 最 佳 方法 可 能 
是 将 基准 测试 包 右 在 代码 周围 ， 以 考察 它 随 着 时 间 的 推移 变 得 更 快 还 是 更 慢 。 
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UF BBL ae 2) a ae BE ie IRB. PHAZE, PRAT HEA RREAK epoch Be 
设 为 1000， 表 明 你 认为 如 果 模 型 在 训练 中 不 经 历 1000 KER, ELER BE AY Jit ee, 
epoch 这 种 测度 所 度量 的 是 所 有 输入 数据 的 完整 遍历 次 数 。 


示例 : 基准 测试 

更 进一步 ， 你 也 可 使 用 像 MiniTest 这 样 的 单元 测试 框架 。 这 类 框架 会 向 你 的 测试 套件 增加 
一 定 的 计算 复杂 性 和 一 个 IPS (iteration per second， 每 秒 迭 代 次 数 ) 基准 测试 ， 以 确保 程 
序 性 能 不 会 随时 间 而 下 降 。 例 如 : 


1 


it ‘should not run too much slower than Last time' do 
bm = Benchmark.measure do 
model.run('sentence' ) 
end 
bm.real.must_be < (time_to_run_last_time * 1.2) 
end 


这 里 ， 我 们 希望 测试 的 运行 时 间 不 超过 上 次 执行 时 间 的 20%。 


1.4.4 检测 未 来 的 精度 和 查 全 率 漂 移 情 况 

精度 (precision) 和 查 全 率 (recall) 是 度量 机 器 学 习 实 现 性 能 的 两 种 方式 。 精 度 是 对 真正 
例 的 比例 ( 即 真正 率 ) 的 度量 '。 例 如 , 若 精度 为 447, 则 意味 着 所 预测 的 7 个 正 例 中 共有 4 
个 样本 是 真正 例 。 查 全 率 是 指 真 正 例 的 数目 与 真正 例 和 假 负 例 数目 之 和 的 比率 。 例 如 ， 若 
有 4 个 真正 例 和 5 个 假 负 例 ， 则 相应 的 查 全 率 为 4/9。 


为 计算 精度 和 查 全 率 ， 用 户 需 要 为 模型 提供 输入 。 这 使 得 学 习 流 程 成 为 一 个 闭环 ， 并 且 由 
于 数据 被 误 分 类 后 所 提供 的 反馈 信息 ， 随 着 时 间 的 推移 ， 系 统 在 数据 上 的 表现 也 会 得 到 提 
升 。 例 如 ， 网 飞 (Netflix) 公司 会 依据 你 的 电影 观看 历史 来 预测 你 对 某 部 影片 的 星 级 评 
价 。 如 果 你 对 该 系统 预测 的 评分 不 满意 ， 并 按照 自己 的 意志 重新 评分 ， 或 者 表明 你 对 该 前 
影片 不 感 兴趣 ， 则 网 飞 再 将 你 的 反馈 信息 输入 模型 ， 以 服务 于 将 来 的 预测 。 


1.5 “小 结 


机 器 学 习 是 一 门 科 学 ， 并 且 需 要 借助 客观 的 方法 来 解决 问题 。 像 科学 方法 一 样 ，TDD 也 有 
助 于 问题 的 解决 。TDD 和 科学 方法 之 所 以 相似 ， 是 因为 二 者 具有 下 列 三 个 共同 点 。 


。 二 者 均 认为 解 应 当 符合 逻辑 ， 且 具有 有 效 性 。 


注 1: 精度 (precision) 并 不 等 同 于 真正 率 (true positive rate)。 真 正 率 是 指 实际 正 例 中 被 预测 正确 的 样本 比例 ， 
而 精度 则 是 在 所 预测 的 正 例 中 实际 正 例 所 占 的 比例 。 此 外 ， 精 度 也 不 同 于 准确 率 (accuracy)， 后 者 是 
指 被 正确 分 类 的 样本 在 整个 测试 集中 所 占 的 比例 。 一 一 译 者 注 
TE2: 网 飞 公司 是 一 家 在 线 影片 租赁 提供 商 ， 拥 有 极为 优秀 的 影片 自动 推荐 引擎 。 一 一 译 者 广 
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。 二 者 均 通过 文档 共享 结果 ， 且 可 持续 不 断 地 工作 。 
。 二 者 都 有 闭环 反馈 的 工作 机 制 。 


虽然 科学 方法 和 TDD 有 许多 相似 之 处 ， 但 机 器 学 习 仍 有 其 特有 的 问题 : 


。 数据 的 不 稳定 性 

。 RUE 

。 过 拟 合 

。 未 来 的 不 可 预测 性 


好 在 ,借助 表 1-2 所 示 的 启发 式 策略 ， 可 在 一 定 程度 上 缓解 这 些 挑战 。 
表 1-2: 降低 机 器 学 习 风 险 的 启发 式 策略 


问题 /风险 启发 式 策略 

数据 的 不 稳定 性 接 颖 测试 

RWE 交叉 验证 

过 拟 合 基准 测试 〈 奥 卡 姆 剃刀 准则 ) 


未 来 的 不 可 预测 性 ” 随 着 时 间 的 推移 追踪 精度 和 查 全 率 


美妙 的 是 ， 在 真正 开始 编写 代码 之 前 ， 你 可 以 编写 或 思考 所 有 这 些 启发 式 策略 。 像 科学 方 
法 一 样 ， 测 试 驱动 开发 也 是 求解 机 器 学 习 问题 的 一 种 极 有 价值 的 方法 。 
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机 器 学 习 概 述 


既然 你 选择 了 本 书 ， 说 明 你 对 机 器 学 习 感 兴趣 。 对 于 何 为 机 器 学 习 你 可 能 已 有 一 定 的 了 
解 ， 这 是 一 门 常常 被 模糊 界定 的 学 科 。 本 章 将 介绍 到 底 什 么 是 机 器 学 习 ， 以 及 思考 机 器 学 
习 算法 的 一 般 框架 。 


Da tt, 
2.1 什么 是 机 器 学 习 

机 器 学 习 是 具有 坚实 理论 基础 的 计算 机 科学 和 含 噪声 的 真实 数据 的 交集 。 本 质 上 ， 机 器 学 
习 是 一 门 关于 如 何 使 机 器 像 人 类 那样 去 理解 数据 的 科学 。 


机 器 学 习 是 一 种 人 工 智 能 ， 该 领域 中 的 算法 或 方法 可 从 数据 中 提取 出 一 些 模式 。 一 般 说 
来 ， 机 器 学 习 所 要 处 理 的 问题 不 多 ， 如 表 2-1 所 示 。 这 些 问题 将 在 下 面 陆续 进行 介绍 。 


表 2-1: 机 器 学 习 问 题 

ma 机 器 学 习 类 型 ~ 
将 数据 拟 合 为 某 个 函数 或 函数 逼近 。 有 监督 学 习 
在 无 反馈 条 件 下 对 数据 进行 推断 。 。 无 监督 学 习 
进行 有 奖励 和 回报 的 比赛 或 游戏 强化 学 习 O 


2.1.1 有 监督 学 习 
有 监督 学 习 (或 函数 逼近 ) 就 是 依据 给 定数 据 拟 合 出 某 种 类 型 的 函数 。 例 如 ， 给 定 图 2-1 
所 示 的 含 噪声 数据 ， 可 从 中 拟 合 出 一 条 直线 来 逼近 这 些 数据 点 。 


r i ; i ; ; 
f(x) = 30*x + 20 —— $ 
10004 f(x) +/- 300 * 随机 : ibe stad 


图 2-1: 从 一 些 随机 数据 点 中 拟 合 出 的 直线 


2.1.2 无 监督 学 习 
无 监督 学 习 的 目标 是 探索 使 得 数据 表现 出 特殊 性 的 原因 。 例 如 ， 当 给 定 许多 数据 点 时 ， 我 
们 可 依据 相似 性 进行 分 组 (如 图 2-2 所 示 )， 或 确定 哪些 变量 更 优 。 


2.1.3 强化 学 习 
强化 学 习 的 目标 是 探索 如 何 进行 有 奖励 和 回报 的 多 阶段 比赛 或 游戏 。 可 将 其 视 为 一 个 对 某 
物 的 生命 周期 进行 优化 的 算法 。 强 化 学 习 算 法 的 一 个 常见 的 例子 是 一 只 老鼠 试图 在 迷宫 中 


找到 奶 酷 。 在 多 数 情况 下 ， 老 鼠 不 会 获得 任何 奖赏 ， 除 非 它 最 终 找 到 那 块 奶 栈 。 


本 书 将 只 介绍 有 监督 学 习 和 无 监督 学 习 ， 而 不 涉及 强化 学 习 。 如 果 你 希望 进一步 了 解 强化 
学 习 ， 可 参考 最 后 一 章 中 罗列 的 相关 资源 。 


2.2 ”机 器 学 习 可 完成 的 任务 


真正 使 得 机 器 学 习 独 一 无 二 的 是 其 寻求 最 优 解 的 能 力 。 但 每 种 机 器 学 习 算 法 都 有 其 特殊 性 


和 人 缺点。 针对 特定 的 任务 ， 总 有 一 些 算法 的 性 能 会 优 于 其 他 算法 。 本 书 只 介绍 几 种 典型 算 


法 。 表 2-2 展示 了 一 个 算法 “矩阵”， 以 帮助 你 大 至 了 解 这 些 算法 ， 并 确定 每 种 算法 对 你 是 


否 有 用 。 
表 2-2: 机 器 学 习 算 法 矩阵 
算法 类 型 类 限制 条 件 适用 场合 
近邻 (KNN) 有 监督 学 习 ”基于 实例 的 一 般 说 来 ，KNN 擅长 度 适合 解决 基于 距离 的 问题 
量 基于 距离 的 逼近 ， 但 
易 受 维 数 灾难 的 影响 
朴素 贝 叶 斯 分 类 (NB) 。 有 监督 学 习 ”概率 的 。 ”要 求 所 给 问题 适用 于 问题 域 中 各 类 的 概 
入 相互 独立 率 均 大 于 0 的 情形 
隐 马 尔 可 夫 模型 (HMM) 有 监督 /无 马尔 可 夫 的 要 求 系统 信息 适用 于 时 间 序列 数据 和 无 
监督 学 习 可 夫 假 设 记忆 性 的 信息 
支持 向 量 机 (SVM) 有 监督 学 习 ”决策 面 。 ”要 求 待 分 类 的 两 个 类 别 适用 于 求解 两 类 分 类 问题 
有 日 
神经 网 络 (NN) 有 监督 学 习 ” 非 线性 函数 几乎 没有 限制 条 件 。 ”适用 于 二 值 给 入 
逼近 
R% 无 监督 学 习 RÆ 无 适用 于 当 给 定 某 种 形式 的 
距离 度量 (如 欧 氏 距离 、 
曼哈顿 距离 等 ) 时， 能 
现 出 明确 分 组 特性 的 数据 
( 核 ) 岭 回归 有 监督 学 习 ”回归 限制 很 少 适用 于 变量 连续 的 情形 
滤波 无 监督 学 习 ”特征 变换 ERA 适用 于 有 大 量变 量 需要 过 


只 有 将 机 器 学 习 用 于 解决 实际 问题 才能 体现 出 其 真正 的 价 人 


器 学 习 算法 吧 1 


在 阅读 本 书 时 ， 请 不 时 地 回顾 该 表 ， 以 帮助 你 至 


E 解 不 同 算法 之 间 的 联系 。 
， 所 以 让 我 们 开始 实现 一 些 机 
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在 开始 学 习 之 前 ， 你 需要 下 载 和 安装 Ruby 编译 器 https://www.ruby-lang.org/ 
en/。 我 在 撰写 本 书 时 使 用 的 版 本 是 2.1.2， 但 芳 虑 到 Ruby 社区 极其 活跃 ， 版 
本 更 新 十 分 迅速 ， 因 此 我 将 所 有 的 改动 都 将 体现 在 本 书 配套 的 代码 资源 中 ， 
读者 可 从 GitHub 站 点 https://github.com/thoughtfulml/examples 获取 最 新 版 本 
的 代码 。 


7 Xa Ho eA 号 
2.3 本 书 采 用 的 数学 符号 
本 书 借助 数学 知识 来 求解 问题 ， 但 所 有 示例 的 设计 都 是 面向 程序 开发 人 员 的 。 本 书 中 采用 
的 数学 符号 如 表 2-3 所 示 。 


表 2-3: 本 书 示 例 中 所 采用 的 数学 符号 


符号 读 法 功能 
Eo; M xo FI x, PIA x 之 和 等 价 于 xo 十 xi 十 … +x 
无 论 x 是 否 为 正 实数 ，|x| 都 为 正 实数 。 例 如 ， 
|x * 的 第 对 人 当 x=-1 时， bel; 当 x=1 时 , kx| 仍 为 1 
Ja 4 的 平方 根 是 2 的 逆 运 算 
Sue 表示 XY 平面 上 的 一 点 ， 可 用 向 量 表示 ， 向 量 
zx =(0.5,0.5) ”向量 z 的 两 个 分 量 分 别 等 于 0.5 和 0.5 ae oe ee 
log. 2 log2 它 是 方程 2=2 的 解 

和 很 多 场合 下 ， 该 值 等 于 事件 4 发 生 的 次 数 与 

Te 所 有 事件 发 生 次 数 总 和 的 比值 

z 、 、 n P(AB) 
P(A|B) 已 知事 件 B 发 生 ， 事 件 4 发 生 的 概率 ”等 于 
p(B) 
{1,2,3} 0 {1} 集合 的 交 运 算 结果 为 {1} 
{1,2,3}U{4,1} ”集合 的 并 运算 结果 为 {1,2,3,4} 
det C 和 矩阵 C 的 行列 式 用 于 帮助 确定 某 个 矩阵 是 否 可 逆 
a 与 5 成 正比 ERG m-a=b 
min f(x) 最 小 化 foo) fos) 为 将 要 最 小 化 的 目标 函数 
x HERE X WEG E 交换 矩阵 行 和 列 上 的 所 有 元 素 
2.4 h 


应 当 说 ， 本 章 对 机 器 学 习 的 介绍 并 不 全 面 ， 但 并 无 大 碍 。 对 于 像 机 器 学 习 这 样 复杂 的 学 
科 ， 我 们 总 是 需要 不 断 地 学 习 。 本 章 已 经 为 你 学 习 后 续 章 节 黄 定 了 良好 的 基础 。 
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你 很 可 能 认识 某 个 钟情 于 某 个 品牌 (如 某 个 技术 公司 或 服装 制造 商 ) 的 人 。 通 常 ， 你 可 通 
过 观察 该 人 的 衣着 和 言谈 举止 作出 判断 。 但 确定 品牌 亲和力 是 否 还 有 其 他 方式 呢 ? 
对 于 一 个 电子 商务 网 站 ， 我 们 可 通过 查看 相似 用 户 的 历史 订单 ， 了 解 他 们 曾 购买 过 的 商 


品 ， 以 判断 品牌 忠诚 度 。 例 如 ， 我 们 不 妨 假设 某 个 用 户 拥 有 一 组 历史 订单 ， 每 个 订单 中 包 
含 两 款 商 品 ， 如 图 3-1 所 示 。 


B 3-1: 涉及 多 个 品牌 的 某 用 户 历史 订单 


依据 该 用 户 的 历史 订单 ， 可 以 看 出 他 购买 了 大 量 Milan Clothing Supplies (虚构 的 品牌 ， 
但 不 影响 你 理解 该 问题 ) 的 服装 。 在 最 近 的 五 个 订单 中 ， 他 购买 了 五 件 Milan Clothing 
Supplies 的 衬衫 。 因 此 ， 可 以 说 该 用 户 对 这 家 公司 有 某 种 程度 的 好 感 。 对 此 有 所 了 解 后 ， 
如 果 我 们 提出 一 个 问题 : 该 用 户 对 哪个 品牌 特别 感 兴趣 ? Milan Clothing Supplies 无 疑 是 
首选 。 


这 种 一 般 性 的 思想 被 称 为 玉 近 邻 (KNN) 分 类 算法 。 在 本 例 中 ，K=5， 而 每 个 订单 代表 对 
某 个 品牌 的 投票 。 得 到 票数 最 多 的 品牌 便 是 分 类 结果 。 本 章 将 介绍 KK 近邻 分 类 ， 给 出 其 定 
义 ， 并 通过 一 个 示例 来 说 明 如 何 将 其 运用 于 检测 人 脸 图 像 中 是 否 有 了 眼 镜 或 胡须 。 


近邻 分 类 是 一 种 基于 实例 的 有 监督 学 习 方 法 ， 尤 其 适用 于 对 距离 敏感 的 数 
据 。 它 容易 受到 “ 维 数 灾难 ”的 影响 ， 而 且 与 基于 距离 的 算法 一 样 ， 也 面临 
许多 其 他 问题 ， 稍 后 我 们 将 逐一 进行 介绍 。 


3.1 K 近 邻 分 类 的 历史 
KNN 算法 最 早 由 Drs. Evelyn Fix 和 J.L. Hodges Jr 博士 在 为 美国 航天 医学 空军 学 校 (U.S. 


Air Force School of Aviation Medicine) 撰写 的 一 份 未 公开 发 表 的 技术 报告 中 提出 。Fix 和 
Hodges 最 初 的 研究 重点 是 将 分 类 问题 划分 为 若干 子 问题 。 


。 下 分布 和 G 分 布 完全 已 知 。 
。 除 少 数 参 数 外 ,下 分 布 和 G 分 布 完 全 已 知 。 
。 除了 概率 密度 函数 可 能 存在 外 ,，F 和 G 均 未 知 。 


Fix 和 Hodges 指出 ， 如 果 已 知 两 类 的 分 布 ， 或 除 一 些 参数 外 分 布 已 知 ， 则 可 轻松 得 到 一 
些 有 意义 的 解 。 因 此 ， 他 们 将 工作 的 重点 放 在 两 类 分 布 未 知 时 如 何 分 类 这 个 更 困难 的 问题 
上 。 他 们 的 杰出 工作 为 KNN 算法 英 定 了 坚实 的 基础 。 


该 算法 已 被 证 明 当 数据 规模 趋 于 无 穷 时 ， 其 渐 近 错误 率 的 上 界 为 贝 叶 斯 错误 率 的 两 倍 。 
意味 着 当 更 多 的 实体 被 添加 到 数据 集中 后 ， 该 算法 的 错误 率 将 不 会 大 于 贝 叶 斯 错误 率 。 
Sh, KNN 的 原理 非常 简单 ， 很 容易 用 于 初步 尝试 某 个 分 类 问题 的 求解 。 对 于 许多 情形 ， 
该 算法 都 能 够 提供 令 人 满意 的 结果 。 


但 使 用 该 算法 也 面临 着 一 系列 挑战 。 如 ， 怎 样 选择 天 的 值 ? 如 何 确 定 哪 些 实例 是 近邻 ， 而 
哪些 不 是 ?这 些 是 我 们 将 在 接 下 来 的 几 个 小 市 中 所 要 回答 的 问题 。 


A a = 二 
32 ”基于 邻居 的 居住 幸福 度 
设想 你 准备 购置 一 处 房产 ， 而 且 有 了 两 个 选择 。 你 希望 了 解 周围 的 邻居 生活 得 是 否 幸 福 
(你 当然 不 希望 搬 到 一 个 不 幸福 的 居住 区 )。 你 去 询问 周围 的 人 在 那里 生活 得 是 否 幸福 ， 并 
将 收集 到 的 信息 整理 为 表 3-1。 


= by 


经 度 ”纬度 “是否 幸福 
56 2 是 
3 20 否 
18 1 是 
20 14 否 
30 30 是 
35 35 是 


之 所 以 用 经 纬度 来 表示 房屋 的 位 置 ， 是 因为 我 们 希望 确定 一 个 足够 小 的 邻 域 。 


假设 我 们 感 兴 趣 的 两 座 房屋 的 位 置 分 别 是 (10,10) 和 (40,40)。 那 么 选择 哪 一 座 房 屋 会 有 助 
于 提升 幸福 感 ， 选 择 哪 一 个 会 降低 幸福 感 ? 确定 这 一 点 的 一 种 方法 是 找到 最 近 的 邻居 ， 然 
后 看 看 他 们 是 否 幸福 。 这 里 的 “最 近 ” 是 指 绝对 距离 (也 称 欧 氏 距离 ) 意义 上 的 最 近 。 


如 表 3-1 所 示 的 二 维 点 之 间 的 欧 氏 距 离 的 计算 公式 为 VC — x)? + O — yn)? 
整个 分 析 流程 可 用 下 列 Ruby 代码 表示 


require 'matrix' 


# 向 量 v1 和 v2 之 间 的 欧 氏 距离 
# 请 注意 Vector#magnitude 表 示 从 原点 (0,0,....) 到 该 向 量 首 端的 欧 氏 距离 
distance = ->(vi, v2) { 

(v1 - v2).magnitude 


} 


house_happiness = { 
Vector[56, 2] => 'Happy', 
Vector[3, 20] => 'Not Happy', 
Vector[18, 1] => 'Happy', 
Vector[20, 14] => 'Not Happy', 
Vector[30, 30] => 'Happy', 
Vector[35, 35] => 'Happy' 


} 

house_1 = Vector[10, 10] 
house_2 = Vector[40, 40] 
find_nearest = ->(house) { 


house_happiness.sort_by {|point, v| 
distance.(point, house) 
}. first 


} 


find_nearest.(house_1) #=> [Vector[20, 14], "Not Happy"] 
find_nearest.(house_2) #=> [Vector[35, 35], "Happy"] 


以 此 为 基础 进行 推断 ， 可 看 到 距离 第 一 座 房屋 最 近 的 邻居 不 幸福 ， 而 距离 第 二 座 房 屋 最 近 
的 邻居 生活 得 很 幸福 。 但 如 果 增 加 考察 的 邻居 数目 ， 结 果 是 否 会 有 变化 ? 


# 使 用 与 上 面相 同 的 代码 


find_nearest_with_k = ->(house, k) { 
house_happiness.sort_by {|point, v| 
distance.(point, house) 
}.first(k) 
} 


find_nearest_with_k.(house_1, 3) 

=> [[Vector[20, 14], "Not Happy"], [Vector[18, 1], "Happy"], [Vector[3, 20], "N 
ot Happy"]] 

find_nearest_with_k.(house_2, 3) 
#=> [[Vector[35, 35], "Happy"], [Vector[30, 30], "Happy"], [Vector[20, 14], "No 
t Happy"]] 


增加 参考 的 邻居 数目 并 未 改变 分 类 结果 ! 这 是 一 件 值得 庆贺 的 好 事 ， 它 提升 了 我 们 对 分 类 
结果 的 信心 。 该 方法 演示 了 下 近邻 分 类 过 程 。 我 们 或 多 或 少 会 参考 最 近 的 邻居 ， 并 依据 他 
们 的 属性 给 出 一 个 评分 。 在 本 例 中 ， 我 们 希望 了 解 选择 哪 座 房屋 会 更 幸福 ， 但 数据 的 重要 
性 绝对 毋庸 置 疑 。 


由 于 其 简单 性 (你 刚才 已 经 有 所 了 解 )，KNN 是 一 种 非常 出 色 的 算法 ， 而 且 功 能 强大 ， 可 
用 于 对 数据 进行 分 类 或 回归 (详情 请 参阅 下 面 的 附注 栏 )。 


分 类 与 回归 

请 注意 ， 在 上 面 的 场景 中 ， 我 们 只 关心 选择 房屋 是 否 会 影响 幸福 感 ， 即 我 们 并 不 打算 
定量 评估 幸福 感 ， 而 只 是 检查 它 是 否 符合 我 们 的 标准 。 这 便 是 一 个 分 类 问题 ， 而 且 可 
以 多 种 形式 出 现 。 

很 多 时 候 ， 分 类 问题 只 涉及 两 个 类 别 ， 这 意味 着 只 有 两 种 可 能 的 答案 ， 如 好 或 坏 、 真 
或 假 、 正 确 或 错误 。 许 多 问题 都 可 转化 为 这 种 两 类 分 类 问题 。 

另 一 方面 ， 我 们 也 可 为 房屋 寻找 一 个 衡量 幸福 感 的 数值 ， 这 将 是 一 个 回归 问题 。 本 章 
不 会 介绍 回归 问题 ， 不 过 在 第 9 章 讨论 核 岭 回归 时 会 介绍 。 


本 章 涉 及 众多 知识 点 ， 并 围绕 KNN 算法 的 使 用 分 成 数 个 主题 。 我 们 首先 讨论 如 何 选择 天 
这 个 用 于 确定 邻 域 的 常量 。 之 后 再 深入 探讨 何 为 “最 近 ”， 并 给 出 一 个 利用 OpenCV 实现 
人 脸 分 类 的 示例 。 


RE 
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3.3 ”如何 选 择 K 


在 评估 房屋 居住 幸福 度 这 个 示例 中 ， 我 们 隐 式 地 将 玉 取 为 5。 对 于 依据 某 人 最 近 的 购物 史 
作出 快速 判断 来 说 ， 这 个 K 值 已 经 足够 了 。 但 对 于 更 复杂 的 问题 ， 我 们 可 能 无 力 猿 测 K 具 
体 取 多 少 合适 。 

KK 近邻 算法 中 的 KK 是 介 于 1 和 数据 点 总 数 之 间 的 一 个 任意 整数 。 在 这 样 宽泛 的 区 间 内 ， 你 
可 能 会 认为 选择 最 优 的 K 值 非常 困难 ， 但 实际 上 这 个 问题 并 不 像 你 想象 的 那么 复杂 。 要 确 
定 K， 主 要 有 三 种 方案 可 供 选 择 : 


。 猜测 
。 使 用 启发 式 策略 
。 通过 算法 优化 


3.3.1 猜测 /的 值 

猜测 是 最 简单 的 解决 方案 。 在 对 商标 分 组 的 例子 中 ， 我 们 将 K=11 作为 一 个 良好 的 猜测 。 
我 们 知道 ， 对 于 预测 个 体 的 购物 行为 ， 考 察 11 份 历史 清单 可 能 已 经 足够 了 。 

很 多 时 候 ， 我 们 可 定性 地 选择 一 个 足够 好 的 天 来 解决 问题 ， 因 此 猜测 是 可 以 奏效 的 。 如 果 
你 希望 用 更 科学 的 方法 来 确定 玉 ， 可 采取 某 种 启发 式 搜索 策略 。 


3.3.2 ”选择 K 的 启发 式 策略 


有 三 种 启发 式 策略 可 帮助 你 确定 KNN 算法 中 天 的 最 优 值 。 


© 当 分 类 问题 中 只 涉及 两 个 类 别 时 ， 不 要 将 天 取 为 偶数 。 
。 天 的 值 应 不 小 于 类 别 总 数 加 1。 
。 为 避免 出 现 噪声 , 天 的 值 应 足够 小 。 


1. 使 人 与 类 别 总 数 互 质 
将 玉 取 为 与 类 别 总 数 互 质 的 数 ， 可 保证 投票 数 并 列 的 情况 较 少 出 现 。 所 谓 互 质 是 指 两 个 数 
除 1 外 再 无 其 他 公 因 子 。 例 如 ，4 和 9 互 质 , 而 3 和 9 非 互 质 。 


假设 两 类 分 类 问题 中 所 涉及 的 两 个 类 别 为 “好 ”与 “ 坏 ”。 如 果 将 下 取 为 6， 则 由 于 6 是 
一 个 偶数 ， 因 此 对 于 测试 样本 ， 最 终 可 能 得 到 票数 并 列 的 结果 ， 如 图 3-2 所 示 。 
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@ tien 
@ #0 


坏 G) 


3-2: 对 于 两 类 问题 ， 当 K=6 时 ， 可 能 出 现 得 票数 相等 的 情 ) 
BEEK KRAS (如 图 3-3 所 示 )， 则 将 不 会 出 现 这 种 得 票数 相等 的 情况 。 


@ tm 
@ #0) 


坏 (2) 


图 3-3: 对 于 两 类 问题 ， 若 取 K=5， 则 不 会 出 现 得 票数 相等 的 情况 


2. 将 K 取 为 不 小 于 类 别 总 数 加 1 的 值 
假设 现 有 三 个 类 别 : lawful, chaotic 以 及 neutral。 一 种 比较 好 的 启发 式 策略 是 使 天 不 小 于 
3， 因 为 任何 更 小 的 数 都 绝 无 表 示 每 一 类 别 的 可 能 。 


为 说 明 这 一 点 ， 请 参阅 图 3-4， 其 中 K=2。 


请 注意 上 图 中 仅 有 两 个 类 别 得 到 了 使 用 机 会 。 这 再 次 说 明 将 天 至 少 取 为 3 的 必要 性 。 但 依 
据 我 们 从 第 一 条 启发 式 策略 中 的 观察 ， 票 数 并 列 并 不 是 一 个 好 现象 。 因 此 ， 我 们 实际 上 不 
应 取 K=3， 而 应 取 K=4 (如 图 3-5 Bras). 


@ 讨论 的 点 
Lawful (1) 
Chaotic (1) 

© Neutral (0) 


3-4: 当 K=2 时 ， 将 无 法 表示 全 部 三 个 类 别 


@ 讨论 的 点 
Lawful(2) 
Chaotic(1) 

O Neutral(1) 


3-5: 当天 的 值 大 于 类 别 总 数 时 ， 所 有 的 类 别 均 有 被 表示 的 机 会 
3. 选择 足够 小 的 K 以 避免 出 现 噪声 
可 逐步 增加 天 的 值 ， 直 至 达到 整个 数据 集 的 规模 。 若 把 天 取 为 整个 数据 集 的 容量 ， 则 分 


类 结果 对 应 出 现 频率 最 高 的 那个 类 。 我 们 回 到 之 前 的 品牌 亲和力 的 例子 ， 假 设 有 100 份 订 
单 ， 如 表 3-2 所 示 。 


表 3-2: 关于 各 品牌 的 订单 数量 


品牌 订单 数量 
Widget Inc. 30 

Bozo Group 23 

Robots and Rockets 12 

Ion 5 35 

总 和 100 


若 取 K=100， 则 分 类 结果 将 为 Ion 5， 因为 它 代 表 了 订购 历史 的 分 布 ( 即 最 常见 的 类 )。 这 
并 非 我 们 真正 想 要 的 ， 我 们 实际 上 希望 确定 最 近 的 购买 倾向 。 更 具体 地 说 ， 我 们 希望 将 进 
入 分 类 环节 的 噪声 数量 降 至 最 低 。 如 果 无 法 提出 一 种 具体 的 算法 ， 可 将 开设 为 一 个 较 小 的 
数值 ， 如 K=3 或 K=11, 


3.3.3 KK 的 选择 算法 

前 述 选 则 天 的 方法 多 少 有 些 定 性 ， 也 不 够 科学 ， 无 怪 平 有 如 此 之 多 的 算法 专门 用 于 在 给 
定 的 训练 集 上 优化 天 的 取 值 。 用 于 选择 天 的 方法 极 多 ， 包 括 了 遗传 算法 和 暴力 网 格 搜索 
算法 。 


许多 人 认为 玉 的 选择 应 基于 实现 者 所 掌握 的 领域 知识 。 例 如 ， 如 果 你 了 解 当 天 取 5 时 效果 
已 经 足够 好 了 ， 则 可 直接 选择 这 个 值 。 


基于 一 个 任意 的 天 试图 将 误差 最 小 化 称 为 想 山 问题 (hill climbing problem)。 其 主要 思想 是 
对 一 组 可 能 的 天 值 轮流 进行 考察 ， 直 至 找到 一 个 可 接受 的 误差 。 利 用 像 遗 传 算法 或 暴力 搜 
索 这 样 的 算法 来 寻求 玉 的 最 优 值 的 难点 在 于 ， 当 天 增 大 时 ， 分 类 的 复杂 性 也 相应 增加 ， 从 
而 降低 性 能 。 换 言 之 ， 当 增加 kK 时， 程序 的 速度 会 逐渐 变 慢 。 


如 果 你 希望 详细 了 解 如 何 将 遗传 算法 用 于 对 天 寻 优 ， 请 参考 Florian Nigsch 等 
在 Journal of Chemical Information and Modeling 期 刊 上 发 表 的 文章 “Melting 
Point Prediction Employing k-Nearest Neighbor Algorithms and Genetic Parameter 
Optimization” (http://pubs.acs.org/doi/abs/10.1021/ci060149f) 。 


在 我 看 来 ， 从 总 体 规模 的 1% FPR RR EI KLE OY ATRIA K EAT 
试验 ， 对 于 什么 样 的 值 可 用 ， 什 么 样 的 不 可 用 ， 你 应 有 一 个 清晰 的 认识 。 


3.4 何谓 Gk Wr” 

假设 你 正 位 于 某 个 城市 街区 的 一 角 ， 那 么 你 到 该 街区 对 角 的 距离 有 多 远 ? 

这 个 问题 的 答案 取决 于 你 施加 的 约束 ， 即 你 是 准备 徒步 穿越 护栏 ， 还 是 驾车 前 往 ? 如 果 你 
采用 的 是 后 一 种 方案 ， 则 路 程 总 长 将 为 街区 长 度 的 两 倍 (曼哈顿 距离 ， 如 图 3-6 所 示 ) ; 
反之 ， 若 你 采用 前 一 种 方案 直行 ， 则 路 程 总 长 为 V2xz ， 其 中 x 表示 街区 的 长 度 ( 欧 氏 距 
离 ， 如 图 3-7 所 示 )。 假 定 该 街区 的 长 度 为 250 英尺 ( 即 76.2 米 )， 则 我 们 可 以 说 ， 乘 车 
时 ， 距 离 为 SOO 英尺 (BN 152.4 米 )， 而 步行 时 ， 距 离 约 为 353.5 英尺 (BE 107.75 X). 


图 3-6: 在 某 个 街区 中 驱车 从 A 点 前 往 B 点 


A 
Prey He A ie LTR Ee A. THA ere BE ( 即 勾 股 定理 )， 
车 已 知 两 直角 边 边 长 ， 则 直角 三 角形 斜 边 边 长 为 VY yg? + p?。 


按照 现代 数学 的 术语 ， 这 些 距离 称 为 度量 (metric)。 它 们 是 一 种 点 之 间距 离 的 测度 。 利 
用 距离 函数 ， 可 计算 这 些 度量 。 在 上 面 的 例子 中 ， 距 离 函 数 分 别 为 出 租车 距离 (Taxicab 
distance) 沁 数 和 欧 氏 距离 济 数 。 度 量 距离 有 多 种 方法 ， 而 选用 何 种 距离 度量 对 于 理解 
KNN 算法 的 工作 机 制 至 关 重 要 ， 因 为 后 者 是 基于 数据 之 间 的 接近 程度 的 。 大 部 分 情况 下 
都 会 采用 欧 氏 距离 ， 它 表示 两 点 之 间 的 最 短路 径 。 


图 3-7: 连接 点 A 与 点 B 的 直线 


3.4.1 Minkowski 距 离 
对 欧 氏 距离 和 出 租车 距离 进行 推广 ， 可 得 到 Minkowski 距离 。 为 了 理解 该 距离 度量 ， 我 们 
首先 来 看 看 出 租车 距离 函数 : 


dltaxicab (x, y) ad ie 1 


Xi — yi 
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该 函数 需要 计算 点 x 和 y 在 所 有 维度 上 的 绝对 差 。 下 面 再 来 看 看 欧 氏 距离 国 数 


deuclid (x,y) = Jd Gan y? 


请 注意 ， 由 于 上 式 中 平方 运算 的 结果 为 非 负 ， 且 Vx = yo Wer LAE: 


工 
Pye 


可 以 看 出 ， 此 时 它 与 上 述 出 租车 距离 函数 非常 相似 。Minkowski 将 上 述 两 个 距离 公式 推广 
为 如 下 形式 .: 


Xi — Yi 


deuclid (x,y) 去 (2 


d(x,y) = (one yp 


通过 引入 一 个 新 的 参数 p， 使 得 上 述 两 种 距离 均 成 为 Minkowski 距离 的 特例 ， 即 当 p=1 时 ， 
Minkowski 距离 特 化 为 出 租车 距离 ， 而 当 p=2 时 ，Minkowski 距离 则 特 化 为 欧 氏 距离 。 这 
非常 耐人寻味 ， 因 为 我 们 可 根据 需要 任意 增 大 p 的 值 。 虽 然 我 们 不 打算 探讨 所 有 版 本 的 
Minkowski 距离 的 应 用 ， 但 相信 你 已 具备 了 进一步 学 习 的 基础 。 


Xi — Vi 


3.4.2 ”Mahalanobis 距 离 


Minkowski 类 型 的 距离 国 数 存 在 的 一 个 问题 是 ， 它 们 假定 数据 分 布 本 质 上 应 当 具 有 对 称 性 ， 
即 距离 在 所 有 方向 上 都 是 相同 的 。 


很 多 时 候 ， 数 据 并 不 符合 球状 分 布 ， 因 此 不 宜 采用 像 Minkowski 距离 这 样 的 对 称 距 离 。 例 
如 ， 在 图 3-8 所 示 的 情形 中 ， 我 们 应 当 对 数据 分 布 呈 椭圆 形 这 个 特点 予以 卷 虑 。 像 图 中 所 
示 那 样 围绕 数据 画 出 一 个 标准 圆 是 不 可 取 的 ， 我 们 需要 选择 一 个 能 够 更 好 地 体现 数据 分 布 
特点 的 形状 。 


a 


3-8: 对 于 呈 椭 圆 形 分 布 的 数据 ， 利 用 Minkowski 距离 无 法 得 到 令 人 满意 的 结果 
Mahalanobis 距离 函数 会 郑 虑 数据 在 每 个 维度 上 的 波动 性 (参见 图 3-9)。 因 此 ， 对 于 数据 
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的 每 个 维度 ， 都 存在 一 个 s,， 表 示 该 数据 集 在 此 维度 上 的 标准 差 的 变量 。 


图 3-9: 使 用 Mahalanobis 距离 
Mahalanobis 距离 的 计算 公式 如 下 所 示 : 


d(x,y) = 


不 难看 出 ， 该 公式 与 欧 氏 距离 非 党 类似， 区别 仅 在 于 是 否 考 虑 数据 集 在 各 维度 上 的 标准 差 。 


ale ma 
3.5 各 类 别 的 确定 
问题 域 中 的 类 别 可 以 相当 宽泛 。 有 时 ， 所 设置 的 各 类 别 并 不 像 我 们 最 初 想 的 那样 完全 互 
斥 。 因 此 ， 在 构建 KNN 分 类 工具 时 需要 特别 注意 的 是 ， 当 模型 中 涉及 的 属性 数目 增加 时 ， 
类 的 总 数 也 呈 指 数 级 增长 。 
例如 ， 若 有 两 种 属性 颜色 :红色 和 黄色 ， 我 们 可 得 到 三 个 类 别 ， 即 红色 、 黄 色 以 及 禁 色 
(参见 图 3-10)。 


图 3-10: 两 种 属性 的 混合 


此 时 ， 如 果 我 们 再 增加 一 个 属性 蓝 色 ， 将 得 到 红色 、 黄 色 、 蓝 色 、 绿 色 、 深 褐色 、 构 色 以 
及 紫色 共 7 个 类 别 (参见 图 3-11)。 在 第 一 种 情况 下 ， 两 个 属性 产生 了 3 个 类 别 ， 而 在 第 
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二 种 情形 下 ， 三 个 属性 共产 生 了 7 个 类 别 。 


3-11: 三 种 属性 的 混合 
对 于 涉及 n 个 属性 的 一 般 情形 ， 它 们 可 组 合成 的 互 斥 类 别 数 将 为 2 一 1。 


除非 有 充分 的 理由 将 混合 类 剔除 ， 否 则 区 分 这 一 点 是 非常 重要 的 。 若 共有 4 种 属性 ， 则 可 
假定 共 需 考虑 15 个 类 别 ， 因 此 可 将 天 取 为 一 个 不 小 于 16 的 数 。 


维 数 灾 难 
近邻 算法 的 缺点 之 一 易 受 维 数 灾难 (curse of dimensionality) 的 影响 。 所 谓 维 数 灾难 
是 指 维 数 越 高 ， 数 据 越 稀 足 不同 数据 之 间 的 距离 也 越 远 。 可 以 想象 一 下 一 颗 子弹 飞 
出 枪 膛 ， 其 微粒 随 着 时 间 逐 渐 在 空气 中 扩散 的 过 程 。 这 个 问题 在 基于 局 部 性 以 及 确定 
某 些 对 象 接 近 程 度 的 算法 中 十 分 常见 。 


图 3-12 演示 了 当 将 单位 球 〈 即 球 心 位 于 原点 ， 半 径 为 1 的 球 ) 收缩 为 一 个 二 维 平面 
后 ， 点 之 间 的 平均 距离 低 于 之 前 的 平均 水 平 。 而 当 升 维 之 后 ， 会 出 现 相反 的 情形 。 


图 3-12: 球面 上 的 维 数 灾难 


RE 
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开 近 邻 算 法 自身 无 法 克服 这 个 缺陷 ， 必 须 借 助 其 他 手段 才能 降低 这 种 风险 ， 详 情 请 参 
阅 第 6 章 。 
在 第 9 章 和 第 10 章 中 ， 我 们 还 将 进一步 探讨 维 数 灾难 。 


3.6 ”利用 KNN 算 法 和 OpenCV 实 现 胡 须 和 眼镜 的 
检测 


假定 你 希望 以 一 般 的 准确 率 来 检测 某 人 是 否 有 胡须 以 及 他 是 否 佩戴 了 眼镜 。 如 何 完 成 这 
样 的 任务 ?对 于 这 种 数据 的 先 验 分 布 ， 我 们 实在 知之 其 少 ， 因 此 结合 计算 机 视觉 开源 库 
OpenCV (Open Computer Vision) 来 使 用 KNN 是 一 个 不 错 的 选择 。 下 面 首先 介绍 该 程序 
的 类 框图 ， 然 后 开始 深入 探讨 如 何 从 一 幅 含 有 人 的 图 像 中 检测 出 人 脸 区 域 ， 之 后 将 从 这 些 
人 脸 图 像 中 提取 一 些 特征 。 当 特征 数量 足够 多 时 ， 便 可 利用 KNN 构建 一 个 人 脸 的 邻 域 ， 
以 帮助 我 们 确定 输入 图 像 的 属性 。 


安装 说 明 


本 例 的 所 有 代码 都 可 从 GitHub 站 点 https://github.com/thoughtfulml/examples/ 
tree/master/2-k-nearest-neighbors 获取 。 


由 于 Ruby 是 一 种 不 断 更 新 的 语言 ， 源 码 包 中 附带 的 README 文件 中 包含 
了 如 何 使 用 这 些 代 码 的 最 新 说 明 。 


尔 需 要 事先 安装 ImageMagick, OpenCV 以 及 最 新 版 的 Ruby 编译 器 。 


3.6.1 类 图 

本 例 的 基本 流程 是 首先 读 入 一 幅 原 始 图 像 (Image 类 的 实例 )， 从 中 提取 一 幅 较 小 的 人 脸 图 
R (Face 类 的 实例 )， 然 后 将 所 有 的 Face 类 实例 存 入 一 个 Neighborhood 类 的 实例 中 ， 后 者 
中 包含 了 很 多 带 有 标注 信息 的 人 脸 图 像 (BU Face 类 的 实例 )。 完 整 的 类 图 请 参见 图 3-13。 


3-13; 胡须 和 眼镜 的 检测 器 类 图 


3.6.2 ”从 原始 图 像 到 人 脸 图 像 
Image 类 先 接收 一 幅 含 有 人 的 图 像 ， 然 后 试图 从 中 检测 到 人 脸 区 域 。 我 们 可 借助 OpenCV 
来 实现 该 功能 。 我 们 希望 的 输入 和 输出 如 图 3-14 和 图 3-15 所 示 。 


3-14; 原始 图 像 


3-15: 利用 Haar 分 类 器 提取 到 的 人 脸 区 域 
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如 果 你 对 OpenCV 略 有 了 解 ， 便 会 想到 利用 类 Haar 特征 来 提取 与 人 脸 相似 的 区 域 。 可 利 
用 OpenCV 库 提 供 的 数据 〈 即 人 脸 检测 训练 结果 ) 及 检测 函数 来 实现 我 们 所 需 的 功能 。 


这 些 数据 可 免费 获取 。 实 际 上 ， 这 些 数据 并 非 我 生成 的 。 它 们 是 OpenCV 的 
茶 些 贡 献 者 在 某 个 用 于 训练 人 脸 检 测 器 的 训练 集 上 训练 得 到 的 模型 参数 ， 而 
用 于 从 人 脸 区 域 提取 特征 的 功能 模块 也 是 由 其 他 人 贡献 的 。 


OpenCV 与 类 Haar 特征 

利用 OpenCV 中 的 类 Haar 特征 提取 模块 ， 可 从 一 幅 尺 寸 较 大 的 含 人 脸 的 图 像 中 检测 出 
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不 同 的 人 脸 通常 共有 某 些 特征 ， 因 此 我 们 可 利用 类 Haar 特征 的 训练 信息 来 确定 人 脸 区 
域 对 应 的 矩形 。 
如 果 你 希望 更 深入 地 了 解 OpenCV， 可 参考 下 列 资 源 。 
。 Daniel Lélis Baggio 编著 的 Mastering OpenCV Practical Computer Projects (Packt Pub 

lishing) 。 
。 OpenCV 的 自 带 文档 (http://docs.opencv.org) 也 是 极 佳 的 学 习 材 料 。 


为 确定 所 得 到 的 人 脸 区 域 是 否 正 确 ， 可 使 用 pHash。 不 同 于 MD5 或 SHAL (这 些 都 是 密 
码 散 列 )，pHash 是 一 种 利用 海 明 距 离 (Hamming distance) 来 寻找 最 接近 的 匹配 的 感知 
(perceptual) 散 列 。 因 此 ， 即 使 该 照片 中 的 人 脸 位 置 有 一 些 偏 移 量 ， 其 散 列 值 仍 与 之 前 的 


吻合 。 


海 明 距 离 是 指 两 等 长 字符 串 中 对 应 位 置 上 不 同 字符 的 个 数 。 例 如 ， 对 于 字符 
串 “apple” 和 “oople”， 由 于 它们 上 只 有 前 两 个 字符 不 同 ， 因 此 二 者 的 海 明 距 
离 为 2。 注 意 ， 海 明 距 离 只 适用 于 长 度 相等 的 字符 串 。 


首先 ， 需要 对 人 脸 检 测 方法 进行 测试 ， 看 它 是 否 每 次 都 返回 相同 的 结果 。 我 们 对 图 3-14 进 
行 检测 ， 并 观察 检测 结果 是 否 与 图 3-15 一 致 : 


# test/lib/image_spec.rb 
require 'spec_helper' 


describe Image do 
it 'tries to convert to a face avatar using haar classifier' do 
@image = Image.new('./test/fixtures/raw.jpg') 
@face = @image.to_face 


avatar1 = Phashion::Image.new("./test/fixtures/avatar. jpg") 
avatar2 = Phashion::Image.new(@face.filepath) 


assert avatar1.duplicate?(avatar2) 
end 
end 


可 以 预见 上 述 代码 一 定 会 失败 ， 因 为 Cimage.to_face 没有 任何 实质 内 容 ， 而 且 eface Hik 
少 一 个 与 之 关联 的 文件 路 径 。 


为 填补 这 些 空白 ， 可 增加 下 列 代码 : 


# lib/image.rb 
# 检测 人 脸 
Face = Struct.new(:filepath) 


class Image 
HAAR_FILEPATH 
FACE_DETECTOR 


', /data/haarcascade_frontalface_alt.xml' 
OpenCV: : CvHaarClassifierCascade: : Load(HAAR_FILEPATH) 


attr_reader :filepath 


def initialize(filepath) 
@filepath = filepath 
end 


def self .write(filepath) 
yield 
filepath 

end 


def face_region 
@image = OpenCV::CvMat.load(@filepath, OpenCV: :CV_LOAD_IMAGE_GRAYSCALE) 
FACE_DETECTOR.detect_objects(@image).first 

end 


def to_face 
name = File.basename(@filepath) 
outfile = File.expand_path("../../public/faces/avatar_#{name}", __FILE ) 


self.class.write(outfile) do 
image = MiniMagick: : Image.open(@filepath) 
image.crop(crop_params) 
image.write(outfile) 

end 


Face.new(outfile) 
end 


def x_size 
face_region.bottom_right.x - face_region.top_left.x 
end 


def y_size 
face_region.bottom_right.y - face_region.top_left.y 


end 


def crop_params 
crop_params = <<-EOL 
#{x_size - 1}x#{y_size-1}+#{face_region.top_left.x + 1}+#{face_region.top_ 
left.y + 1} 
EOL 
end 
end 


可 以 看 到 ， 在 上 述 代 码 中 我 们 使 用 了 两 个 库 一 一 MiniMagick 和 OpenCV。 此 外 ， 还 用 到 了 
来 自 OpenCV 库 的 用 于 检测 人 脸 的 训练 集 haarcascade_frontalface_alt.xml。 些 时， 测试 可 以 
通过 ， 并 可 认为 Image 类 能 够 如 期 工作 。 但 现在 我 们 需要 关注 如 何 构建 Face 类 。 


特征 、 维 度 及 实例 
特征 、 维 度 以 及 实例 是 机 器 学 习 中 使 用 频率 极 高 的 三 个 术语 。 


特征 代表 了 给 定数 据 集 的 一 种 属性 。 通 常 ， 特 征 由 那些 最 重要 的 维度 组 合 而 成 ， 其 中 
每 个 维度 都 代表 了 对 数据 不 同方 面 的 刻画 ; 而 实例 则 表示 具体 的 数据 片段 。 

特征 与 维度 之 间 的 关系 可 用 房间 中 的 照明 来 类 比 (参见 表 3-3)。 假 设 共有 三 笋 灯 ， 则 
共有 8 种 照明 方案 。 但 你 真正 希望 了 解 的 是 采用 哪 种 方案 能 够 使 房间 足够 明亮 GE 
RAE DE BMA), 


3-3: 房间 中 的 照明 


第 1 瘟 灯 是 否 被 点 亮 PRHLARAR BWRIKSLAR ”房间 是 否 足够 明亮 
否 否 否 否 
是 否 否 a 
否 是 否 否 
否 否 是 否 
是 是 否 是 
否 是 是 是 
是 否 是 是 
是 是 是 是 


本 例 中 只 涉及 了 一 种 特征 ， 即 房间 是 否 足够 明亮 ， 该 特征 基于 描述 三 名 灯 开局 状态 的 
三 个 维度 。 而 实例 则 是 这 些 灯 开局 状态 的 组 合 。 


3.6.3 Face 类 


Face 类 只 负责 完成 一 项 功能 ， 即 加 载 一 幅 含 有 人 脸 的 图 像 ， 并 从 中 提取 特征 。 随 后 ， 这 些 
特征 将 送 入 Neighborhood 类 〈 将 在 下 一 节 进 行 介绍 )。 从 这 里 开始 ，; 此 况 开始 变 得 复杂 ， 
因为 特征 可 按照 三 种 不 同 的 方式 来 提取 。 


。 提取 每 个 像素 的 明暗 值 (由 于 我 们 选用 的 图 像 为 灰 度 
值 而 非 彩色 值 )。 

。 使 用 SIFT 算法 。 

。 使 用 SURF 算法 。 


因此 每 个 像素 所 包含 的 是 灰 度 


将 图 像 的 明暗 表示 为 像素 矩阵 是 一 种 简单 直观 的 方法 ， 但 这 种 表示 法 会 使 我 们 陷入 维 数 灾 
难 。 这 种 简单 表示 方法 的 代价 是 无 法 将 那些 无 意义 的 噪声 像素 数目 减少 。 有 些 算法 能 够 直 
接 处 理 灰 度 输入 ， 如 神经 网 络 (将 在 第 7 章 进 行 介绍 )。 例 如 ， 深 度 学 习 (deep learning) 
便利 用 了 神经 网 络 的 这 个 优点 ， 能 够 从 灰 度 像素 中 直接 提取 出 有 意义 的 特征 。 


另 一 种 方法 是 使 用 SIFT (Scale Invariant Feature Transform， 尺 度 不 变 的 特征 变换 ) 算法 。 
该 算法 是 一 种 用 于 检测 显著 特征 的 计算 机 视觉 算法 ， 由 David Lowe 教授 于 1999 年 提出 。 
该 算法 已 被 英 属 哥伦比亚 大 学 申请 了 专利 。 相 比 于 像素 和 矩阵， 该 方法 是 一 个 巨大 的 进步 。 


还 有 一 种 与 SIFT 类 似 的 算法 ， 即 SURF (Speeded Up Robust Features， 加 速 的 稳健 特征 )。 
SURF 算法 由 Herbert Bay 于 2006 年 提出 ， 是 对 SIFT 的 一 种 改进 ， 目 的 在 于 提高 计算 效 
率 。 该 算法 已 被 证 明 可 成 功 应 用 于 识别 图 像 的 多 种 特征 。 


VS 


无 论 SIFT 还 是 SURF 都 是 很 好 的 选择 。OpenCV 提供 了 一 个 高 质量 的 SURF 版 本 ， 因 此 我 
们 可 利用 它 来 从 人 脸 图 像 中 提取 特征 。 


测试 Face 类 
SURF 可 为 Face 类 提供 两 种 信息 片段 ， 即 关键 点 和 描述 符 。 关 键 点 是 指 特征 点 在 图 像 坐标 
系 中 的 二 维 坐标 (ry)， 而 描述 符 更 有 趣 ， 它 所 包含 的 是 从 特征 点 的 某 个 固定 大 小 的 邻 域 中 
计算 出 的 64 维 或 128 维 局 部 特征 。 我 们 不 打算 对 OpenCV 中 的 SURF 实现 的 特征 检测 质 
量 进行 测试 ， 而 是 需要 确保 数据 始终 一 致 ， 即 所 构造 的 两 个 Face 类 实例 从 同一 幅 图 提取 出 
的 特征 相同 。 


为 此 ， 可 使 用 下 列 测试 代码 : 


# test/lib/face_spec.rb 
require 'spec_helper' 
require 'matrix' 


describe Face do 
let(:avatar_path) { './test/fixtures/avatar.jpg' } 


it 'has the same descriptors for the exact same face' do 
@face_descriptors = Face.new(avatar_path).descriptors 
@face2_descriptors = Face.new(avatar_path).descriptors 


@face_descriptors.sort_by! { |row| Vector[*row].magnitude } 
@face2_descriptors.sort_by! { |row| Vector[*row].magnitude } 


@face_descriptors.zip(@face2_descriptors).each do |f1, f2| 
assert (0.99..1.01).include?(cosine_similarity(f1, f2)), 
"Face descriptors don't match" 
end 
end 


it 'has the same keypoints for the exact same face' do 
@face = Face.new(avatar_path) 
@face2 = Face.new(avatar_path) 


# 这 纯粹 是 因为 Ruby 的 0penCVv 实 现 中 对 SurfPoints 缺 少 == 表 示 
@face.keypoints.each_with_index do |kp, il 

f1 = Vector[kp.pt.x, kp.pt.y] 

f2 = Vector[@face2.keypoints[i].pt.x, @face2.keypoints[i].pt.y] 


assert (0.99..1.01).include?(cosine_similarity(f1, f2)), 
"Face keypoints do not match" 


end 
end 
end 
余弦 相似 度 
你 可 能 已 经 注意 到 ， 在 上 述 代 码 中 我 们 使 用 了 一 个 名 为 cosine_similarity 的 函数 。 这 


100% 相等 ， 而 是 看 两 个 向 量 是 否 足 够 接近 。 


可 在 文件 spec_helper.rb 内 写 出 该 方法 的 实现 ， 如 下 所 示 : 


# test/spec_helper.rb 
def cosine_similarity(array_1, array_2) 

v1 = Vector[*array_1] 

v2 = Vector[*array_2] 

vi.inner_product(v2) / (v1.magnitude * v2.magnitude) 
end 


对 于 比较 两 不 同 向 量 之 间 是 否 相 似 ， 余 统 相 似 度 是 一 种 非常 有 用 的 测度 。 它 实际 上 度 
量 的 是 这 两 个 向 量 之 间 的 夹 角 ， 而 非 长 度 上 的 差异 。 例 如 ， 在 本 例 中 ， 若 有 向 量 [1,1] 
和 [2,2]， 则 可 以 看 出 ， 二 者 的 余弦 相似 度 为 1: 


cosine_similarity([2,2], [1,1]) #=> 0.9999 ~ 1 


由 于 描述 符 也 是 以 向 量 的 形式 存在 ， 因 此 在 比较 两 描述 符 (比如 人 脸 ) 相似 性 的 场合 ， 
也 可 使 用 余弦 相似 度 ， 至 少 可 以 考察 它们 的 方向 是 否 相 同 。 


上 面 的 Face 类 是 用 Struct 类 创建 的 一 个 动态 类 ， 因 此 我 们 需要 为 其 填 人 一 些 代码 片段 : 


# lib/face.rb 


class Face 
include Opencv 


MIN_HESSIAN 


attr_reader 


= 600 


:filepath 


def initialize(filepath) 


@filepath 
end 


= filepath 


def descriptors 
@descriptors ||= features. last 


end 


def keypoints 
@keypoints ||= features. first 


end 


private 


def features 
image = CvMat.load(@filepath, CV_LOAD_IMAGE_GRAYSCALE) 
param = CvSURFParams.new(MIN_HESSIAN) 
@keypoints, @descriptors = image.extract_surf (param) 


end 
end 


可 以 看 到 ， 该 类 除了 提取 特征 点 和 描述 符 外 ， 并 无 太 多 实质 内 容 。MIN_HESSIAN 是 一 个 推 


荐 在 400~800 范围 


的 描述 符 。 


内 选取 的 参数 。 当 MIN_HESSIAN 的 值 增加 时 ，SUREF 检测 到 的 特征 数目 
将 减少 ， 但 这 些 特征 的 重要 性 将 更 为 突出 。 同 时 ， 我 们 还 从 每 幅 人 脸 图 像 中 提取 了 64 维 


至 此 ， 给 定 一 幅 含 人 脸 的 图 像 ， 我 们 
中 提取 出 一 些 描述 符 。 那 么 接 下 来 应 该 做 哪些 工作 呢 ? 


3.6.4 ” Neighborhood 类 


至 此 ， 我 们 已 掌握 了 充足 的 信息 来 构建 Neighborhood 类 ， 以 帮助 我 们 找到 最 接近 的 特征 ， 
并 记录 与 包含 那些 特征 的 图 像 关联 的 属性 。 


不 但 可 从 中 检测 出 人 脸 区 域 ， 而 且 可 从 这 些 人 脸 区 域 


我 们 希望 从 一 个 更 大 的 特征 库 ( 集 ) 中 匹配 该 图 像 的 每 个 特征 。 只 要 我 们 能 够 找到 与 这 些 


特征 最 接近 的 天 个 特征 ， 


也 就 找到 了 与 这 天 个 特征 分 别 关联 的 天 幅 图 像 ， 从 而 也 就 得 到 


了 与 这 些 图 像 分 别 关 联 的 属性 。 利 用 这 些 属性 ， 便 可 得 到 最 终 的 分 类 结果 。 
依据 我 们 之 前 掌握 的 关于 寻找 近邻 的 知识 ， 可 依 不 同 的 方式 来 解决 这 个 问题 。 我 们 可 将 


Mahalanobis 距离 、 


在 知之 甚 少 ， 因 此 采用 最 简单 也 是 最 常见 的 距离 度量 


欧 氏 距离 ， 其 至 


租车 距离 作为 距离 度量 。 关 于 数据 的 分 布 ， 我 们 实 
欧 氏 距离 。 这 种 距离 函数 既 好 用 


又 普遍 ， 后 面 的 章 市 中 我 们 可 能 还 会 用 到 它 。 


K-D 树 或 天 维 树 是 一 种 用 于 将 向 量 与 组 织 为 树 形 的 向 量 集 进 行 匹配 的 数据 
结构 。 你 可 利用 它 来 实现 快速 玉 近 邻 查 找 。 


首先 定义 测试 : 
# test/lib/neighborhood_spec.rb 


describe Neighborhood do 
it 'finds the nearest id for a given face' do 
files = ['./test/fixtures/avatar.jpg'] 
n = Neighborhood.new(files) 


n.nearest_feature_ids(files.first, 1).each do |id| 
n.file_from_id(id).must_equal files.first 
end 
end 
end 


对 上 述 代 码 进行 完善 ， 可 得 到 如 下 所 示 的 Neighborhood 类 。 


# lib/neighborhood.rb 


class Neighborhood 
def initialize(files) 
@ids = {} 
@files = files 
setup! 
end 


def file_from_id(id) 
@ids.fetch(id) 
end 


def nearest_feature_ids(file, k) 
desc = Face.new(file).descriptors 


ids = [] 


desc.each do |d| 
ids.concat(@kd_tree.find_nearest(d, k).map(&:last)) 
end 


ids.uniq 
end 
end 


我 们 注意 到 ，nearest_feature_id 函数 返回 的 id 中 是 没有 重复 元 素 的 。 这 是 因为 我 们 需 
要 从 一 个 不 存在 重复 元 素 的 特征 集中 寻找 最 近邻 匹配 ， 而 对 待 分 类 的 特征 集中 是 否 存在 重 
复元 素 并 不 关心 。 现 在 ， 既 然 我 们 已 经 拥有 了 一 个 可 读 取 简 单 文件 〈 即 只 含 人 脸 区 域 的 图 
像 ) 的 邻 域 ， 接 下 来 需要 对 一 些 真实 数据 进行 标注 ， 并 用 它们 来 检验 天 近邻 分 类 器 的 效 
有 果 。 为 此 ， 我 们 需要 找到 一 个 人 脸 数据 库 。 


1. 利用 人 脸 图 像 构造 邻 域 


为 使 我 们 的 胡须 和 眼镜 检测 程序 能 够 达到 期 望 的 效果 ， 需 要 一 组 含 胡须 、 眼 镜 、 


既 有 明 


须 又 有 了 眼镜， 以 及 两 者 均 无 的 图 像 。AT&T ARG (http://www.cl.cam.ac.uk/research/dtg/ 
attarchive/facedatabase.html) 是 一 个 很 好 的 选择 。 该 数据 集中 包含 了 40 个 人 又 称 主题 ， 
subject) ， 其 中 每 个 人 都 有 10 幅 不 同 的 图 像 ， 但 缺少 我 们 所 需要 的 标注 信息 。 因 此 ， 我 们 
需要 手工 生成 一 些 名 为 attributes.json 的 ISON 文件 ， 并 将 其 放 在 每 个 主题 对 应 的 文件 夹 


中 。 其 格式 如 下 : 


"facial_hair": false, 
"glasses": false, 


} 
如 果 一 个 主题 的 有 些 图 像 中 含 腿 镜 ， 而 其 他 图 像 不 含 眼镜 ， 则 可 使 月 
json 文件 : 

[{ 


"ids": [1,2,5,6,7,8,9,10], 
"facial_hair": true, 
"glasses": true, 


"ids": [3,4], 
"facial_hair": true, 
"glasses": false, 


}] 


可 以 看 到 ， 两 个 ID 数组 将 属性 划分 为 两 个 部 分 。 我 们 还 需要 为 将 属性 依附 于 图 


能 编写 一 项 测试 : 
# test/lib/neighborhood_spec.rb 
describe Neighborhood do 
it ‘returns attributes from given files' do 
files = ['./test/fixtures/avatar.jpg'] 


n = Neighborhood.new( files) 


expected = { 


日 下 列 格式 的 


attributes. 


像 这 个 功 


'fixtures' => JSON.parse(File.read('./test/fixtures/attributes.json')) 


} 


n.attributes.must_equal expected 
end 
end 


接着 ， 应 解析 与 每 个 文件 夹 对 应 的 属性 ， 并 将 其 放 入 一 个 散 列表 : 


# lib/neighborhood.rb 


class Neighborhood 
# 初始 化 
# file_from_id 
# nearest_feature_ids 


def attributes 
attributes = {} 
@files.each do |file| 
att_name = File. join(File.dirname(file), ‘attributes. json') 


attributes[att_name.split("/")[-2]] = JSON.parse(File.read(att_name)) 


end 
attributes 
end 
end 


但 我 们 仍然 缺少 一 个 片段 ， 即 包含 了 不 同类 别 的 记录 (“Facial Hair No Glasses” “Facial 
Hair Glasses” “Glasses No Facial Hair” “Glasses Facial Hair”) 的 一 个 散 列 表 。 本 例 中 ， 该 


散 列表 的 形式 如 下 : 
{ 


'glasses' => {false => 1, true => 0}, 
'facial_hair' => {false => 1, true => 1} 


} 
从 中 可 以 看 出 每 类 的 得 票数 计数)。 对 此 进行 测试 的 代码 如 下 : 


# test/lib/neighborhood. rb 


describe Neighborhood do 
it 'finds the nearest face which is itself' do 
files = ['./test/fixtures/avatar.jpg'] 
neighborhood = Neighborhood.new(files) 


descriptor_count = Face.new(files.first).descriptors. length 
attributes = JSON.parse(File.read('./test/fixtures/attributes.json')) 


expectation = { 
'glasses' => { 
attributes.fetch('glasses') => descriptor_count, 
lattributes.fetch('glasses') => 0 
}， 
‘facial_hair' => { 
attributes.fetch('facial_hair') => descriptor_count, 
lattributes.fetch('facial_hair') => 0 
} 
} 


neighborhood.attributes_guess(files.first).must_equal expectation 
end 
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it ‘returns the proper face class' do 
file = './public/att_faces/s1/1.png' 
attrs = JSON.parse(File.read('./public/att_faces/s1/attributes.json')) 


expectation = {'glasses' => false, 'facial_hair' => false} 


attributes = %w[glasses facial_hair] 
Neighborhood.face_class(file, attributes).must_equal expectation 
end 
end 


填充 完 这 些 片 段 后 ， 便 得 到 了 如 下 的 Neighborhood 类 : 


# lib/neighborhood.rb 


class Neighborhood 
# 初始 化 
# file_from_id 
# nearest_feature_ids 


# 属性 


def self.face_class(filename, subkeys) 
dir = File.dirname(filename) 
base = File.basename(filename, '.png') 


attributes _path = File.expand_path('../attributes.json', filename) 
json = JSON.parse(File.read(attributes_path)) 


h = nil 


if json.is_a?(Array) 

h = json.find do |hh| 

hh.fetch('ids').include?(base.to_i) 

end or 

raise "Cannot find #{base.to_i} inside of #{json} for file #{filename}" 
else 

h = json 
end 


h.select {|k,v| subkeys.include?(k) } 
end 


def attributes_guess(file, k = 4) 
ids = nearest_feature_ids(file, k) 


votes = { 
"glasses' => {false => 0, true => 0}, 
'facial_hair' => {false => 0, true => 0} 


} 


ids.each do |id| 
resp = self.class.face_class(@ids[id], %w[glasses facial_hair]) 


resp.each do |k,v| 


votes[k][v] += 1 
end 
end 


votes 
end 
end 


现在 我 们 面临 的 任务 是 如 何 让 程序 发 挥 作用 。 你 可 能 已 经 注意 到 ，attributes_guess 的 默 
认 值 为 Kk。 因此， 我 们 还 需要 通过 此 科学 手段 来 确定 


2. 通过 交叉 验证 选择 K 
现在 我 们 需要 对 模型 进行 训练 ， 以 构建 一 个 最 优 模型 ， 并 找到 合适 的 玉 值 。 为 此 ， 首 先 将 
AT&T 数据 库 划 分 为 两 个 部 分 


# test/lib/neighborhood_spec.rb 


describe Neighborhood do 
let(:files) { Dir['./public/att_faces/**/*.png'] } 


let(:file_folds) do 


{ 
'fold1' => files.each_with_index.select {|f, i] i.even? }.map(&:first), 
'fold2' => files.each_with_index.select {|f, i] t.odd? }.map(&:first) 
} 
end 


let(:neighborhoods) do 


"foldi' => Neighborhood.new(file_folds.fetch('fold1i')), 
"fold2' => Neighborhood.new(file_folds.fetch('fold2')) 
} 


end 
end 


接 下 来 ， 我 们 希望 为 每 份 数据 构建 一 个 测试 ， 并 通过 交叉 验证 来 查看 不 同 的 天 所 对 应 的 误 
差 情况 。 这 里 的 测试 并 非 指 单元 测试 ， 因 为 我 们 要 做 的 是 一 系列 试验 。 我 们 所 使 用 的 代码 
如 下 : 


# test/lib/neighborhood_spec.rb 


describe Neighborhood do 
%w[fold1 fold2].each_with_index do |fold, il 
other_fold = "fold#{(i + 1) % 2 + 1}" 
it "cross validates #{fold} against #{other_fold}" do 
(1..7).each do |k_exp| 

k = 2 ** k_exp - 1 
errors = 0 
successes = 0 


dist = measure_x_times(2) do 


en 
end 
end 
end 


这 段 代码 可 打印 日 


file_folds.fetch(fold).each do |vf| 


face_class = Neighborhood.face_class(vf, %w[glasses facial_hair]) 
actual = neighborhoods.fetch(other_fold).attributes_guess(vf, k) 


face_class.each do |k,v| 
if actual[k][v] > actual[k][!v] 
successes += 1 
else 
errors += 1 
end 
end 
end 
end 


error_rate = errors / (errors + successes).to_f 


avg_time = dist.reduce(Rational(0,1)) do |sum, bm| 
sum += bm.real * Rational(1,2) 

end 

print "#{k}, #{error_rate}, #{avg_time}\n" 

d 


所 对 应 的 误差 大 小 和 相应 的 运行 时 间 请 参阅 表 3-4 和 表 3-5) 。 
表 3-4: 用 于 交叉 验证 的 数据 1 


K ERK 运行 时 间 
1 0.0 1.428 440 5 
2 0.0 0.879 999 5 
4 0.057 5 1.303 254 5 
8 0.1775 2.121 337 
16 0.252 5 3.758 390 5 
32 0.255 8.555 531 
64 0.255 23.308 074 5 


23-5: 用 于 交叉 验证 的 数据 2 


K HRE 运行 时 间 

1 0.0 1.477 3145 
2 0.0 0.916 875 5 
4 0.05 1.309 703 5 
8 0.21 2.118 3575 
16 0.247 5 3.890 095 

32 0.247 5 8.624 577 5 
64 0.247 5 23.480 187 


上 在 寻找 最 优 天 的 过 程 中 的 一 些 有 价值 的 信息 ， 如 图 


3-16 Pras (不 同 的 
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图 3-16: 不 同 的 K 所 对 应 的 错误 率 及 时 间 (单位 为 秒 ) 
现在 ， 对 于 如 何 选择 和 ， 我 们 已 经 可 以 做 出 更 好 的 判断 了 。 然 而 ， 我 们 不 应 选择 使 错误 率 


最 小 的 K=1 或 K=2， 而 应 选择 K=4。 这 是 因为 当 新 数据 到 来 时 ， 我 们 希望 对 所 有 四 个 类 别 


进行 检查 ， 从 而 使 模型 对 数据 集 将 来 可 能 发 生 的 变化 更 加 稳健 。 
至 此 ， 我 们 的 代码 已 经 完全 能 够 正常 工作 了 1 


3.7 小 结 


天 近邻 算法 是 用 于 数据 分 类 的 最 佳 算法 之 一 ， 它 也 一 种 懒惰 的 和 非 参数 的 方法 。 如 有 果 使 用 
了 类 似 K-D 树 这 样 的 结构 ， 则 可 显著 提升 该 算法 的 运行 效率 。 通 过 本 章 的 学 习 ， 你 还 了 解 


到 在 任何 希望 对 投票 进行 建 模 或 确定 对 象 之 间 是 否 接近 的 场合 ，KNN 算法 都 是 适用 的 。 


你 还 学 习 了 与 KNN 有 关 的 若干 重要 问题 ， 如 维 数 灾难 。 当 构建 自己 的 工具 以 确定 某 人 是 
否 佩戴 了 眼睛 或 有 胡须 时 ， 我 们 迅速 地 了 解 到 ， 如 果 查 看 所 有 的 像素 ， 该 任务 将 无 从 下 


手 ， 因 此 我 们 借助 SURF 来 实现 降 维 。 


由 于 KNN 算法 的 渐 近 错误 率 上 界 由 贝 叶 斯 错误 率 确定 ， 因 此 对 于 许多 分 类 问题 ， 首 先 党 


试 KNN 算法 来 确定 该 问题 能 否 解 决 ， 都 不 失 为 一 个 明智 的 选择 。 


K 近 邻 分 类 
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第 4 章 


朴素 贝 叶 斯 分 类 


你 是 否 还 记得 几 年 前 的 电子 邮件 ? 你 可 能 记得 ， 当 时 自己 的 收 件 箱 中 充满 了 垃圾 邮件 ， 从 
尼日利亚 王子 希望 典当 物品 到 各 类 药物 广告 。 我 们 不 得 不 将 大 量 时 间 花 费 在 垃圾 邮件 的 着 
除 上 ， 这 曾经 是 一 个 非常 严重 的 问题 。 


如 今 ， 我 们 在 垃圾 邮件 滤 除 上 所 花费 的 时 间 大 大 减少 ， 这 多 亏 了 Gmail 和 像 SpamAssassin 
这 样 的 专业 工具 。 借 助 一 个 被 称 为 朴素 贝 叶 斯 分 类 器 (Naive Bayesian Classifier) 的 方法 ， 
这 类 工具 可 有 效 阻止 垃圾 邮件 涌 入 我 们 的 收 件 箱 。 本 章 将 探讨 这 个 话题 以 及 : 


。 贝 叶 斯 定理 
。 何 为 相 素 贝 叶 斯 分 类 器 以 及 称 其 为 “朴素 ”的 原因 
。 如 何 利 用 杆 素 贝 叶 斯 分 类 器 构建 垃圾 邮件 过 滤器 


我 们 曾经 在 第 2 章 介绍 过 ， 朴 素 贝 叶 斯 分 类 器 是 一 种 有 监督 的 概率 学 习 方 
法 。 对 于 数据 集中 输入 相互 独立 的 场合 ， 朴 素 贝 叶 斯 分 类 器 能 够 展现 出 良好 
的 性 能 。 此 外 ， 它 也 更 适合 解决 那些 任何 属性 的 概率 均 大 于 零 的 问题 。 


4.1 利用 贝 叶 斯 定理 找 出 欺诈 性 订单 


设想 你 在 运营 一 家 在 线 商 店 ， 最 近 你 发 现 有 很 多 欺诈 性 订单 。 你 粗略 估计 这 些 订单 所 占 的 
比例 约 为 10%。 换 言 之 ,在 10% 的 订单 中 ， 有 人 企图 从 你 的 商店 中 窃取 货物 。 你 当然 希 
望 通过 减少 欺诈 性 订单 的 数量 来 缓解 这 个 问题 ， 但 很 快 就 发 现 自己 所 面 对 的 这 个 问题 极为 
复杂 。 
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假定 每 个 月 你 都 会 收 到 至 少 1000 份 订单 。 如 果 你 逐一 人 工 排查 ， 无 疑 将 花费 人 力 、 物 力 
和 财力 。 假 设 判断 每 个 订单 是 否 存在 欺诈 需要 至 多 60 秒 ， 而 你 需要 为 每 位 客服 代表 所 文 
付 的 时 薪 是 15 美元 ， 则 你 每 年 需要 花费 200 小 时 ， 并 支付 3000 美元 的 工资 。 


解决 该 问题 的 另 一 种 方法 是 构造 一 个 概率 值 ， 即 任意 一 份 订 单 有 超过 50% 的 几率 为 欺诈 | 
订单 。 些 时， 我们 希望 必须 进行 查看 的 订单 数量 足够 少 。 Ry 
因为 我 们 唯一 能 确定 的 只 是 每 份 订 单 带 有 欺诈 性 的 概率 为 10%。 给 定 这 样 的 信息 ， 我 们 上 
能 注意 检查 所 有 订单 ， 因 为 每 份 订单 不 带 有 欺诈 性 的 可 能 性 更 大 。 


假设 我 们 发 现 欺诈 性 订单 通常 使 用 礼品 卡 和 多 个 促销 代码 。 我 们 如 何 利用 这 些 信息 来 确定 
订单 是 否 带 有 数 诈 性 ? 也 就 是 当 客 户 使 用 礼品 卡 时 ， 我 们 如 何 计算 这 份 订 单 带 有 炊 诈 性 的 
概率 ? 


f= 


O 


d 


为 回答 这 个 问题 ， 我 们 先 来 回顾 一 下 条 件 概率 。 


4.1.1 条 件 概率 

当 提 到 某 事件 发 生 的 概率 时 ， 大 多 数 人 都 理解 其 中 的 含义 。 例 如 ， 一 份 订单 带 有 欺诈 性 的 
肯 率 为 10%。 这 种 表述 非常 直观 。 但 当 某 份 订单 使 用 了 礼品 卡 时 ， 应 如 何 计算 它 带 有 坎 许 
性 的 概率 呢 ?为 处 理 更 复杂 的 情况 ， 我 们 需要 条 件 概率 这 种 工具 ， 其 定义 如 下 : 


P(ANB) 
P(B) 


P(A|B) = 


概率 符号 
一 般 而 言 ，P(E) 表示 某 个 事件 的 发 生 概 率 。 这 里 的 “事件 ”有 很 多 含义 ， 既 可 表示 事 
件 4 和 妨 同 时 发 生 的 概率 ， 也 可 表示 4 或 妃 发 生 的 概率 ， 还 可 表示 已 知 刀 已 发 生 时 4 
发 生 的 概率 。 下 面 将 介绍 这 些 场景 下 如 何 表示 概率 。 


ANB 称 为 与 函数 ， 因 为 它 表 示 事 件 4 与 妃 的 交 。 例 如 ， 在 Ruby 语言 中 ， 交 运算 可 
这 样 表示 : 


a 
b 


[1,2,3] 
[1,4,5] 


a&b #=> [1] 
AUB *AMHR, AACAMATT AFB, 例如， 在 Ruby 语言 中 ， 该 运算 可 这 样 
表示 : 


[1,2,3] 
[1,4,5] 


a | b #=> [1,2,3,4,5] 


最 后 ,，B 已 发 生 时 ,A 发 生 的 概 举 用 Ruby 可 表示 为 : 


total = 6.0 


p_a_cap_b = (a & b).Length / total 
p_b = b.length / total 


p_a_given_b = p_a_cap_b / p_b #=> 0.33 


o 当 B 发 生 后 ，4 发 生 的 概率 等 于 4 和 B 同时 发 生 的 概率 除 以 B 发 生 的 
。 条 件 概 率 的 计算 过 程 如 图 4-1 所 示 。 


P(B) = 20% 


P(BIA) = 6% / 20% = 30% 
P(BIA) = 6% / 30% = 20% 


P(A and B) = 6% 


B 4-1: 该 图 展示 了 P(A - B) 与 P(4nB) 和 P(B) 之 间 的 关系 


在 上 面 的 欺诈 性 订单 示例 中 ， 比 如 我 们 希望 度量 当 某 份 订单 使 用 了 礼品 卡 时 ， 存 在 欺诈 的 


P(Fraud Giftcard)  、 、 
这 样 ， 如 果 
P(Giftcard) i A 


欺诈 性 订单 、 使 用 礼品 卡 的 实际 概率 以 及 二 者 同时 出 现 的 概率 已 知 ， 便 可 求 出 这 个 条 件 
概率 。 


概率 。 由 条 件 概率 的 定义 可 知 ，P(Fraud| Giftcard) = 


至 此 ， 我 们 再 次 遇 到 同样 的 问题 ， 即 由 于 实现 难度 较 大 ， 而 无 法 计算 P(Fraud| Giftcard), 
为 解决 这 个 问题 ， 我 们 需要 利用 一 个 由 贝 叶 斯 发 明 的 技巧 。 


4.1.2 RARE 

18 世纪 ， 英 国教 士 托马斯 贝 叶 斯 (Reverend Thomas Bayes) 开展 了 后 来 成 为 贝 叶 斯 定理 
的 研究 。 拉 普 拉 斯 (Pierre-Simon Laplace) 对 贝 叶 斯 的 研究 进行 了 扩展 ， 并 得 到 了 一 个 形 
式 优 美的 结果 ， 也 就 是 我 们 今天 所 熟知 的 贝 叶 斯 定理 : 
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该 公式 之 所 以 成 立 ， 是 因为 : 


P(ANB)P(B) 
7 P(B) _ P(ANB) 
BBA P(A) P(A) 


对 于 上 面 的 欺诈 性 订单 的 示例 ， 这 个 公式 十 分 有 用 ， 因 为 我 们 可 有 效 地 利用 其 他 信息 来 推 
得 所 要 的 结果 。 利 用 贝 叶 斯 定理 ， 我 们 现在 便 可 计算 : 


P(Giftcard| Fraud) P (Fraud) 
P(Giftcard) 


前 面 我 们 提 到 欺诈 性 订单 的 概率 为 1 0%。 假设 使 用 礼品 卡 的 概率 为 10%， 基 于 我 们 的 研 
究 ， 其 诈 性 订单 中 使 用 礼品 卡 的 概率 为 60%。 那 么 ， 当 一 份 订单 使 用 了 礼品 卡 时 ， 它 带 有 
欺诈 性 的 概率 有 多 大 ? 


P(Fraud| Giftcard) = 


109 
P(Fraud| Giftcard) = 60%10% = 60% 
10% 


上 式 的 优雅 之 处 在 于 统计 欺诈 性 i 订单 的 工作 量 显 著 减 少 了 ， 因 为 现在 我 们 只 需 检查 那些 使 
用 了 礼品 卡 的 订单 。 由 于 订单 总 数 为 1000， 而 其 中 欺诈 性 订单 的 数量 为 100， 我 们 只 需 对 
其 中 60 份 欺 诈 订 单 进行 检 查 便 可 。 在 其 余 900 份 订 单 中 ， 共 有 90 份 使 用 了 礼品 卡 ， 因 此 
我 们 总 共 需 要 检查 的 订单 只 有 150 份 ! 


至 此 ， 你 会 发 现 需要 进行 欺诈 评估 的 订单 数目 从 1000 减少 为 40 〈 即 总 量 的 4%)。 是 否 还 
有 改进 的 余地 ? 如 果 人 们 使 用 了 多 个 促销 代码 或 其 他 信息 ， 应 如 何 应 对 ? 


4.2 ”朴素 贝 叶 斯 分 类 器 


我 们 已 经 解决 了 从 使 用 礼品 卡 的 订单 中 找 出 欺诈 性 订单 的 问题 ， 但 如 果 这 些 订单 中 可 能 使 
用 了 礼品 卡 、 多 个 促销 代码 或 具有 其 他 特征 时 ， 应 当 如 何 解决 问题 ? 


即 ， 我 们 希望 解决 的 问题 是 P(4| B,C) = ? 。 为 此 ， 我 们 还 需要 一 些 其 他 信息 ， 并 利用 一 种 
称 为 链 式 法 则 (chain rule) 的 工具 。 


4.2.1 链 式 法 则 

回顾 一 下 概率 课程 ， 我 们 知道 4 和 8B 均 发 生 的 概率 等 于 4 已 发 生 时 8 发 生 的 概率 乘 以 4 
发 生 的 概率 。 这 个 关系 用 数学 语言 可 表示 为 P(A n B) = P(B| 4)P(4) 。 该 公式 假设 这 些 事 
件 并 不 互 斥 。 利 用 联合 概率 (joint probability) ， 该 结果 可 延伸 出 链 式 法 则 。 


联合 概率 是 指 所 有 事件 均 发 生 的 概率 。 若 用 求 交 符号 mn 来 表示 不 同事 件 均 发 生 这 个 事实 ， 
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则 链 式 法 则 的 一 般 形式 如 下 : 


P (At, Ao, +++, An) = P(A1)P(Ap| A) P(As| A1, A2) +P (An | Ay, A2, °°) An_1) 
该 扩展 版 本 为 贝 叶 斯 概率 估计 注入 了 大 量 信息 ， 从 而 有 助 于 问题 的 求解 。 但 这 里 仍然 存在 
一 个 问题 : 它 会 迅速 演化 为 涉及 我 们 不 曾 拥 有 的 信息 的 复杂 计算 ， 因 此 我 们 需要 作出 大 胆 
的 假设 ， 并 使 用 一 些 朴素 的 方法 。 


4.2.2 ” 贝 叶 斯 推理 中 的 朴素 性 

对 于 解决 那些 潜在 的 相 容 性 问题 (inclusive problem)， 链 式 法 则 极 有 价值 ， 但 我 们 却 无 力 
计算 其 中 涉及 的 所 有 概率 。 例 如 ， 如 果 我 们 打算 在 欺诈 性 订单 那个 示例 中 引入 多 个 促销 代 
码 ， 则 需要 计算 的 概率 为 : 


P (Giftcard, Promos | Fraud) P (Fraud) 
P (Giftcard, Promos) 


考虑 到 上 式 中 分 母 与 订单 是 否 带 有 欺诈 性 无 关 ， 我 们 暂时 将 其 忽略 。 此 时 ， 我 们 需 
要 将 精力 集中 在 P(Fraud| Gifrcard, Promos) 的 计算 上 。 由 链 式 法 则 可 知 ， 该 式 等 于 
P (Fraud, Gifrcard, Pr omos) o 


P(Fraud| Giftcard, Promos) = 


通过 下 式 可 证 明 这 种 关系 成 立 : 
P (Fraud, Gift, Promo) = P(Fraud) P (Gift, Promo| Fraud ) 
= P(Fraud) P(Gift| Fraud) P (Promo| Fraud, Gift) 


DUE, RIAR TRF Aaa: 如 何 度量 当 一 份 订单 带 有 欺诈 性 且 使 用 了 礼品 卡 时 ， 
某 个 促销 代码 的 出 现 概率 ? 虽然 有 必要 计算 这 个 概率 值 ， 但 难度 却 很 大 一 一 尤其 是 对 于 
涉及 更 多 特征 的 情形 。 如 果 我 们 从 朴素 的 观点 出 发 ， 并 不 关心 促销 代码 与 礼品 卡 之 间 的 
关系 ， 即 认为 当 订 单 带 有 欺诈 性 时 ， 是 否 使 用 促销 代码 与 是 否 使 用 礼品 卡 无 关 ， 结 果 会 
如 何 ? 


在 这 种 假设 下 ， 上 式 将 得 到 明显 简化 : 


P(Fraud, Gift, Promo) = P(Fraud) P(Gifi| Fraud ) P(Promo| Fraud ) 


可 以 看 出 ， 它 与 分 子 成 正比 。 为 进一步 简化 ， 我 们 可 断言 今后 将 用 某 个 神秘 的 Z( 即 所 有 
类 别 的 概率 之 和 ) 将 其 归 一 化 。 从 而 ， 我 们 的 模型 变 为 : 


P(Fraud| Gift, Promo) = GP (Fraud) P (Gif Fraud) P(Promo| Fraud) 


朴素 贝 叶 斯 分 类 | 49 


为 将 其 转化 为 一 个 分 类 问题 ， 只 需 确定 哪个 输入 ( 带 有 欺诈 性 或 不 具 欺 诈 性 ) 的 概率 最 大 
(请 参阅 表 4-1)。 


表 4-1: 礼品 卡 与 促销 码 的 概率 


有 欺诈 性 ”无 欺诈 性 


出 现 礼 品 卡 60% 10% 
使 用 了 多 个 促销 代码 50% 30% 
类 概率 10% 90% 


这 时 ， 你 可 利用 该 信息 单纯 地 依据 某 份 订 单 是 否 使 用 了 礼品 卡 或 多 个 促销 代码 来 判定 它 是 
否 带 有 坎 诈 性 。 在 使 用 礼品 卡 和 多 个 促销 代码 的 前 提 下 ， 订 单 带 有 欺诈 性 的 概率 为 62.5% 。 


虽然 就 你 必须 核查 的 订单 总 数 


i 言 ， 我 们 无 法 精确 指出 这 能 帮助 你 证 省 多 少 工作 量 ， 但 至 


少 我 们 清楚 我 们 使 用 了 更 有 价值 的 信息 ， 且 作出 了 更 好 的 决策 。 


尽管 如 此 ， 仍 然 存在 一 个 问题 ， 如 果 已 知 一 份 订单 带 有 欺诈 性 ， 而 它 使 用 多 个 促销 代码 的 
概率 为 0， 会 出 现 什么 情况 ? 造成 这 种 结果 的 原因 有 多 种 ， 其 中 一 种 是 样本 容量 不 足 。 父 
计数 便 是 应 对 这 种 情况 的 一 种 方法 。 


4.2.3 (Hite 


对 于 朴素 贝 叶 斯 分 类 器 而 言 ， 有 一 个 巨大 的 挑战 ,上 
电子 邮件 ， 分 类 为 普通 邮 伯 
着 出 现 了 一 种 糟糕 的 情形 : 


wA [| 
Hi 


HIL, 


因此 通过 计算 得 到 给 定 该 单词 ， 邮 件 为 垃圾 邮 们 


新 信息 的 引入 。 人 例如， 我们 有 一 大 宗 
或 垃圾 邮件 。 我 们 利用 所 有 这 些 数据 构建 了 一 些 概率 值 ， 但 接 
一 个 新 单词 “fuzzbolt” 出 现 了 。 由 于 这 个 词 在 我 们 的 数据 中 未 


的 概率 为 0。 这 会 导致 归 零 效应 


(zero-out effect)， 使 得 结果 向 我 们 拥有 的 数据 产生 显著 的 偏 倚 。 


由 于 为 得 到 分 类 结果 ， 杆 素 贝 叶 斯 分 类 器 需要 将 所 有 条 件 独 立 的 概率 相 乘 ， 因 此 一 旦 这 些 
概率 之 中 有 一 项 为 0， 则 总 概率 也 将 为 0。 


例如 ， 假 设 现 有 一 封 标题 为 “Fuzzbolt: Prince of Nigeria” 的 邮件 。 假 设 我 们 将 单词 “of” 


移 除 ， 从 而 得 到 如 表 4-2 所 示 的 概率 值 。 


表 4-2: 给 定 垃圾 邮件 或 普通 邮件 时 单词 的 概率 


单词 垃圾 邮件 普通 邮件 
Fuzzbolt 0 0 

Prince 75% 15% 
Nigeria 85% 10% 


现在 假设 我 们 希望 计算 出 这 封 邮件 “是 垃圾 邮件 的 得 分 ”和 “是 普通 邮件 的 得 分 ”两 项 分 
值 。 在 这 两 种 情形 中 ， 由 于 名 zzbolt 并 未 出 现 ， 因 此 分 值 都 将 为 0。 这 时 ， 由 于 出 现 了 得 
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分 相等 的 情况 ， 我 们 依据 从 众 原则 ， 将 这 封 邮件 判定 为 普通 邮件 。 这 意味 着 我 们 预测 失 
败 ， 由 于 一 个 未 被 识别 的 单词 ， 得 到 了 错误 的 分 类 结果 。 


对 于 该 问题 有 一 种 简单 的 修正 方法 一 一 伪 计 数 (pseudocount)。 在 计算 概率 时 ， 我 们 为 单 
词 的 出 现 次 数 加 上 1， 即 所 有 单词 的 出 现 次 数 均 记 为 word_count+1。 这 有 助 于 缓解 归 零 效 
应 的 影响 。 在 上 面 的 欺诈 性 订单 检测 示例 中 ， 通 过 为 每 个 单词 的 出 现 次 数 增加 1， 便 可 确 
保 概率 值 中 永远 不 会 出 现 零 值 。 


假设 在 上 面 的 例子 中 ， 共 有 3000 个 单词 。 我 们 给 fuzzbolt 的 评分 是 113000。 其 他 分 数 虽 然 
产生 了 细微 的 变化 ， 但 却 规 避 了 归 零 效应 。 


4.3 垃圾 邮件 过 滤器 

构建 垃圾 邮件 过 滤器 是 典型 的 机 器 学 习 示 例 。 本 市 中 ， 我 们 将 使 用 村 素 贝 叶 斯 分 类 器 搭建 
一 个 简单 的 垃圾 邮件 过 滤器 ， 并 利用 三 元 符号 化 模型 (3-gram tokenization model) 改进 其 
性 能 。 


通过 前 面 的 学 习 ， 我 们 已 了 解 到 朴素 贝 叶 斯 分 类 器 非常 易于 计算 ， 且 在 强 条 件 独 立 假设 满 
足 时 ， 具 有 优异 的 性 能 。 本 例 中 ， 我 们 将 介绍 以 下 内 容 : 


。 彼此 交互 的 类 如 何 定义 

。 一 个 高 质量 的 数据 源 

。 一 种 符号 化 模型 

。 一 个 用 于 将 误差 最 小 化 的 目标 函数 
。 一 种 随时 间 提 升 性 能 的 方法 


安装 说 明 


本 例 所 使 用 的 全 部 代码 都 可 从 GitHub 站 点 https://github.com/thoughtfulml/ 


examples/tree/master/3-naive-bayesian-classification 免费 下 载 。 


由 于 Ruby 语言 在 不 断 地 更 新 ， 为 保证 代码 的 正确 运行 ， 最 好 参考 相关 的 
README 文件 。 


运行 代码 前 ， 请 确保 事先 安装 了 Libxml 库 。 


4.3.1 类 图 


本 例 中 ， 每 封 电子 邮件 都 对 应 于 一 个 可 接收 .eml 类 型 的 文本 文件 ( 即 新 邮件 )， 并 可 将 其 
符号 化 为 SpamTrainer 类 可 利用 的 信息 的 对 象 。 完 整 的 类 图 请 参阅 图 4-2。 
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spam.eml ham.eml ham.eml 
iS DS D 


Spam Trainer 


4-2: 展示 了 电子 邮件 如 何 输入 Spantrainer 类 的 类 图 


4.3.2 ”数据 源 

有 大 量 数据 源 可 供 选 择 ， 但 最 适合 我 们 的 是 带 有 是 否 为 垃圾 邮件 标注 信息 的 数据 集 。 为 
此 ， 可 利用 CSDMC2010 SPAM 数据 集 ， 它 可 从 SourceForge 站 点 http://csmining.org/index. 
php/spam-email-datasets-.html 免费 获取 。 


该 数据 集 共 含 4327 封 邮件 ， 其 中 普通 邮件 2949 封 ， 垃 圾 邮件 1378 封 。 这 个 数据 集 的 规 
模 不 算 很 大 ， 但 对 于 验证 概念 ， 已 经 足够 了 。 


4.3.3 Email 

Email 类 的 功能 较 单 一 ， 只 负责 依据 邮件 的 REC 对 新 收 到 的 电子 邮件 进行 解析 。 为 此 ， 我 
们 使 用 gem 包 ， 因 为 其 邮件 处 理 功 能 非常 强大 。 但 在 我 们 的 模型 中 ， 只 关心 标题 和 邮 们 
正文 。 


a3 


我 们 需要 处 理 的 信息 类 型 包括 HTML 消息 、 纯 文本 (plaintext), 44> (multipart) 等 ， 
而 其 他 类 型 的 信息 将 忽略 。 

下 面 我 们 利用 测试 驱动 开发 一 步 步 构建 该 类 。 

从 简单 的 纯 文本 开始 ， 我 们 将 数据 集中 的 一 个 训练 样本 文件 从 data/TRAINING/TRAIN_ 
00001.eml 复制 到 ./test/fixtures/plain.eml。 该 文件 是 一 个 纯 文本 文件 ， 很 适合 我 们 。 请 注 
意 ， 电 子 邮 件 中 正文 和 标 头 用 \rin\rn 分 隔 。 与 标 头 信息 一 起 的 通常 是 一 些 如 “标题 ， 此 处 
为 邮件 标题 ”之 类 的 文字 。 利 用 这 一 点 ， 我 们 可 轻松 提取 出 测试 样 例 : 


require 'spec_helper' 
# test/lib/email_spec.rb 


describe Email do 
describe 'plaintext' do 
let(:plain_file) { './test/fixtures/plain.eml' } 
let(:plaintext) { File.read(plain_file) } 
let(:plain_email) { Email.new(plain_file) } 


it 'parses and stores the plain body' do 
body = plaintext.split("\n\n")[1..-1].join("\n\n") 
plain_email.body.must_equal body 

end 


it ‘parses the subject' do 
subject = plaintext.match(/*Subject: (.*)$/)[1] 
plain_email.subject.must_equal subject 
end 
end 
end 


=X 
HSE 


现在 ， 我 们 并 不 打算 单纯 地 依赖 正则 表达 式 ， 而 是 


利用 可 处 理 这 些 细节 的 邮件 包 ， 具 


require 'forwardable' 
# lib/email.rb 


class Email 
extend Forwardable 


def_delegators :@mail, :subject 


def initialize(filepath) 
@filepath = filepath 
@mail = Mail.read(filepath) 
end 


def body 
@mail. body .decoded 
end 
end 


你 会 注意 到 ， 我 们 利用 了 def_delegators 将 邮件 标题 委托 给 @mail 对 象 。 这 样 做 只 是 为 了 
简单 起 见 。 


既然 我 们 已 经 能 够 读 取 纯 文 本 邮件 ， 接 下 来 考虑 如 何 读 取 HTML 邮件 。 为 此 ， 我 们 希望 仅 
提取 内 部 文字 inner_text。 由 于 正则 表达 式 在 这 种 场合 无 法 发 挥 作 用 ， 我 们 需要 借助 另外 
一 个 包 一 一 Nokogiri， 它 能 够 大 大 简化 我 们 的 工作 。 但 我 们 首先 需要 一 个 如 下 所 示 的 测试 
Hfl: 
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# test/lib/email_spec.rb 


describe Email do 
describe 'html' do 
let(:html_file) { './test/fixtures/html.eml' } 
let(:html) { File.read(html_file) } 
Llet(:html_email) { Email.new(html_file) } 


it "parses and stores the html body's inner_text" do 
body = html.split("\n\n")[1..-1].join("\n\n") 
html_email.body.must_equal Nokogiri: :HTML. parse(body).inner_text 
end 


it "stores subject like plaintext does as well" do 
subject = html.match(/*Subject: (.*)$/)[1] 
html_email.subject.must_equal subject 
end 
end 
end 


如 前 所 述 ， 我 们 准备 利用 Nokogiri 来 计算 inner_text， 而 且 是 在 Email 类 的 内 部 使 用 它 。 
现在 的 问题 在 于 我 们 还 需要 检测 content_type。 因 此 我 们 将 它 也 加 入 Email 类 的 定义 : 


# lib/email.rb 
require 'forwardable' 


class Email 
extend Forwardable 


def_delegators :@mail, :subject, :content_type 


def initialize(filepath) 
@filepath = filepath 
@mail = Mail.read(filepath) 
end 


def body 
single_body(@mail.body.decoded, content_type) 
end 


private 
def single_body(body, content_type) 
case content_type 
when 'text/html' 
Nokogiri: :HTML.parse(body).inner_text 
when 'text/plain' 
body.to_s 


邮 


此 时 ， 我 们 也 可 添加 多 部 分 处 理 ， 但 我 希望 将 它 留 作 练习 。 你 可 从 本 书 的 配套 代码 中 找到 
多 部 分 处 理 的 版 本 。 


这 样 ， 我 们 就 拥有 了 一 个 可 以 工作 的 电子 邮件 解析 程序 ， 但 我 们 还 需要 处 理 符 号 化 ， 或 从 
邮件 正文 和 标题 中 提取 单词 。 


4.3.4 符号 化 与 上 下 文 

如 图 4-3 所 示 ， 符 号 化 文本 有 多 种 方法 ， 如 依据 词 干 、 词 频 和 单词 进行 符号 化 。 对 于 垃圾 
邮件 ， 我 们 遇 到 了 一 个 由 上 下 文 引 起 的 非常 有 挑战 性 的 问题 。 短 语 Buy now 听 起 来 很 像 垃 
圾 邮件 ， 而 Buy 和 now 则 没有 这 种 感觉 。 由 于 我 们 要 构建 的 是 一 个 朴素 贝 叶 斯 分 类 器 ， 
此 假设 每 个 独立 的 符号 (token) 对 邮件 是 否 为 垃圾 邮件 都 有 贡献 。 


>H 


& 


SL 
数 


= 
的 


a bey 


词 干 


一 人 一 一 


‘a N 


Setr2R Saat TITAS 
ae ee 


4-3: 符号 化 文本 有 多 种 方法 

我 们 所 要 构建 的 符号 化 程序 的 目标 是 将 单词 提取 为 流 。 我 们 并 不 打算 返回 一 个 数组 ， 而 是 
希望 每 个 符号 出 现时 才 生 成 它 ， 这 样 程序 运行 期 间 便 可 保持 较 低 的 内 存 占用 率 。 为 保持 一 
致 ， 我 们 事先 将 所 有 字符 串 都 转化 为 小 写 : 


# test/lib/tokenizer_spec.rb 
require 'spec_helper' 


describe Tokenizer do 
describe '1-gram tokenization' do 

it 'downcases all words' do 
expectation = %w[this is all caps] 
Tokenizer.tokenize("THIS IS ALL CAPS") do |token| 

token.must_equal expectation. shift 

end 

end 


it ‘uses the block if given' do 
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expectation = %w[feep foop] 
Tokenizer .tokenize("feep foop") do |token| 
token.must_equal expectation.shift 
end 
end 
end 
end 


之 前 曾 交 待 过 ， 利 用 这 段 符号 化 代码 ， 我 们 要 完成 两 项 任务 。 首 先 ， 将 所 有 单词 中 的 字母 
都 转换 为 小 写 ， 其 次 ， 我 们 使 用 了 块 ， 而 非 数 组 。 这 样 做 是 为 了 降低 内 存 消耗 ， 因 为 我 们 
无 需 构建 数组 并 将 其 返回 。 这 使 得 它 更 加 “懒惰 "。 为 了 完成 后 续 济 试 工作 ， 我 们 需要 往 
符号 化 模块 的 框架 中 填充 一 些 代码 ， 如 下 所 示 : 


# lib/tokenizer.rb 


module Tokenizer 
extend self 


def tokenize(string, &block) 
current_word = '' 
return unless string.respond_to?(:scan) 
string.scan(/[a-zA-Z0-9_\u0000]+/).each do |token| 

yield token.downcase 

end 

end 

end 


既然 我 们 已 经 掌握 了 邮件 的 解析 和 符号 化 方法 ， 接 下 来 便 可 进入 贝 叶 斯 部 分 


SpamTrainer , 


4.3.5 SpamTrainerZzé 

现在 我 们 需要 构建 SpamTrainer 类 ， 以 利用 它 来 完成 三 项 任务 。 

(1) 存储 训练 数据 。 

(2) 构建 贝 叶 斯 分 类 器 。 

(3) 通过 测试 将 假 正 率 最 小 化 。 

1. 训练 数据 的 存储 

我 们 要 做 的 第 一 件 事 是 从 给 定 的 邮件 消息 集中 提取 和 存储 训练 数据 。 在 产品 环境 中 ， 你 会 
选择 一 些 具有 持久 性 的 结构 。 本 例 中 ， 我 们 将 一 切 都 保存 在 一 个 很 大 的 散 列 中 。 


请 牢记 ， 大 多 数 机 器 学 习 算 法 都 有 两 个 步骤 : 训练 和 计算 。 我 们 的 训练 步骤 又 由 以 下 三 个 
子 步骤 组 成 。 


(D 存储 所 有 的 类 别 。 
(2) 存储 每 类 中 每 个 单词 ( 需 事先 进行 去 重 处 理 ) 的 出 现 频数 。 
(3) 存储 每 类 中 所 有 单词 的 出 现 频 数 之 和 。 


因此 ， 我 们 需要 首先 获取 所 有 类 别 的 名 称 ， 测试 的 内 容 大 致 如 下 : 


# test/lib/spam_trainer_spec.rb 


describe SpamTrainer do 
describe 'initialization' do 
let(:hash_test) do 
{'spam' => './filepath', 'ham' => './another', 'scram' => './another2'} 
end 


it ‘allows you to pass in multiple categories' do 
st = SpamTrainer.new(hash_test) 
st.categories.sort.must_equal hash_test.keys.uniq.sort 
end 
end 
end 


解决 方案 如 下 列 代码 所 示 : 
# lib/spam_trainer.rb 


class SpamTrainer 
def initialize(training_files, n = 1) 
@categories = Set.new 


training_files.each do |tf| 
@categories << tf.first 
end 
end 
end 


你 会 注意 到 ， 我 们 目前 利用 了 一 个 集合 来 保存 类 的 信息 ， 因 为 集合 的 性 质 能 够 保证 各 类 别 
不 会 重复 出 现 。 接 下 来 是 从 每 封 邮件 中 提取 无 重复 的 符号 。 我 们 利用 一 个 特殊 的 类 别 _all 
来 记录 所 有 符号 的 出 现 频数 : 


Subject: One of a kind Money maker! Try it for free! 
spam 
# test/lib/spam_trainer_spec.rb 
describe SpamTrainer do 
let(:training) do 
[['spam','./test/fixtures/plain.eml'], ['ham','./test/fixtures/small.eml']] 


end 


let(:trainer) { SpamTrainer.new(training)} 
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it ‘initializes counts all at 0 plus an _all category' do 
st = SpamTrainer.new(hash_test) 
%w[_all spam ham scram].each do |cat| 
st.total_for(cat).must_equal 0 
end 
end 
end 


为 了 使 之 工作 ， 我 们 需要 引入 一 个 名 为 train! 的 新 方法 。 该 方法 应 能 够 接收 训练 数据 ， 对 
其 遍历 ， 并 将 数据 保存 到 一 个 内 部 散 列 中 。 解 决 方案 如 下 : 


# lib/spam_trainer.rb 


class SpamTrainer 
def initialize(training_files) 
setup! (training_files) 
end 


def setup! (training_files) 
@categories = Set.new 


training_files.each do |tf| 
@categories << tf.first 
end 


@totals = Hash[@categories.map {|c| [c, 0]}] 
@totals.default = 0 
@totals['_all'] = 0 


@training = Hash[@categories.map {|c| [c, Hash.new(0)]}] 
end 


def total_for(category) 
@totals.fetch(category) 
end 


def train! 
@to_train.each do |category, file| 
write(category, file) 
end 
@to_train = [] 
end 


def write(category, file) 
email = Email.new(file) 


logger .debug("#{category} #{file}") 


@categories << category 
@training[category] ||= Hash.new(0) 


Tokenizer .unique_tokenizer(email.blob) do |token| 
@training[category][token] += 1 


@totals['_all'] += 1 
@totals[category] += 1 
end 
end 
end 


现在 我 们 已 经 在 程序 中 的 训练 部 分 投入 了 不 少 精力 ， 但 对 于 其 性 能 却 一 无 所 知 。 而 且 ， 它 
还 不 能 完成 任何 分 类 任务 。 为 此 ， 我 们 还 需 构建 一 个 分 类 器 。 


2. 构建 贝 叶 斯 分 类 器 
我 们 首先 回忆 一 下 贝 叶 斯 公式 : 


P(B | AD P(A) 


B) = 
2 PB | Aj) P(A)) 


P(A 


由 于 我 们 对 贝 叶 斯 公式 的 认识 还 很 浅 ， 所 以 将 它 表 示 为 更 简单 的 形式 : 


Score(Spam, Wi, Ws, ++, Wn) = P (Spam) P (Wi | Spam) P(W | Spam) ++- P (W, 


Spam) 


之 后 我 们 用 某 个 归 一 化 常量 Z 去除 上 式 。 


我 们 接 下 来 的 目标 是 构建 score 方法 、normalized_score 方法 和 classify 方法 。score 方 
法 是 从 之 前 的 计算 得 到 的 原始 分 值 ， 而 normalized_socre 的 取 值 范围 为 0~1 (通过 除 以 所 
有 符号 的 出 现 频数 总 和 Z 实现 归 一 化 )。 


score 方法 的 测试 代码 如 下 : 
# test/lib/spam_trainer_spec.rb 


describe SpamTrainer do 
describe 'scoring and classification' do 
let (:training) do 
[ 
['spam','./test/fixtures/plain.eml'], 
['ham','./test/fixtures/plain.eml'], 
['scram','./test/fixtures/plain.eml'] 
] 


end 

let(:trainer) do 
SpamTrainer.new( training) 

end 


let(:email) { Email.new('./test/fixtures/plain.eml') } 


it ‘calculates the probability to be 1/n' do 
scores = trainer.score(email).values 


assert_in_delta scores.first, scores.last 
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scores.each_slice(2) do |slice| 
assert_in_delta slice.first, slice.last 
end 
end 
end 
end 


由 于 在 所 有 类 别 上 训练 数据 都 是 均匀 分 布 的 ， 因 此 没有 理由 为 它们 分 配 不 同 的 分 值 。 为 
此 ， 我 们 需要 为 SpamTrainer 类 的 定义 添加 下 列 代码 片段 : 


# lib/spam_trainer.rb 


class SpamTrainer 
#def initialize 
#def total_for 
#def train! 
#def write 


def score(email) 
train! 


unless email.respond_to?(:blob) 
raise ‘Must implement #blob on given object' 
end 


cat_totals = totals 


aggregates = Hash[categories.map do |cat| 


[ 


cat, 
Rational(cat_totals.fetch(cat).to_i, cat_totals.fetch("_all").to_i) 
] 
end] 


Tokenizer .unique_tokenizer(email.blob) do |token| 
categories.each do |cat| 
r = Rational(get(cat, token) + 1, cat_totals.fetch(cat).to_i + 1) 
aggregates[cat] *= r 
end 
end 


aggregates 
end 
end 


该 测试 的 内 容 如 下 。 


。 若 模型 尚未 训练 (train! 方法 负责 训练 ) 好 ， 则 训练 模型 。 
。 对 于 当前 邮件 正文 中 的 每 个 符号 , 遍历 所 有 类 别 , 并 计算 当前 符号 来 自 每 个 类 别 的 概率 ， 
从 而 计算 出 未 经 Z 归 一 化 的 朴素 贝 叶 斯 分 值 。 


在 获得 每 个 符号 的 分 值 之 后 ， 还 需 定义 方法 normalized_score， 确 保 这 些 分 值 之 和 为 1。 
# test/lib/spam_trainer_spec.rb 


describe SpamTrainer do 
it ‘calculates the probability to be exactly the same and add up to 1' do 
trainer .normalized_score(email).values.inject(&:+).must_equal 1 
trainer .normalized_score(email).values.first.must_equal Rational(1,3) 
end 
end 


这 样 ，SpamTrainer 类 最 终 为 : 


# lib/spam_trainer.rb 


class SpamTrainer 
#def initialize 
#def total_for 
#def train! 
#def write 
#def score 


def normalized_score(email) 
score = score(email) 
sum = score.values.inject(&:+) 


Hash[score.map do |cat, aggregate| 
[cat, (aggregate / sum).to_f] 
end] 
end 
end 


3. 分 类 的 计算 
得 到 符号 的 分 值 之 后 ， 为 便于 最 终 用 户 使 用 ， 我 们 还 需 计 算 分 类 结果 。 分 类 也 以 对 象 的 形 
式 定 义 ， 并 应 返回 预测 结果 和 分 值 。 但 在 预测 结果 中 ， 可 能 出 现 预 测 分 值 并 列 的 问题 。 


列 如 ， 假 设 现 有 一 个 模型 ， 涉 及 火 鸡 和 豆腐 两 个 类 别 。 如 果 对 两 类 的 预测 分 值 旗 鼓 相当 ， 
该 如 何 处 理 ? 可 能 最 佳 方式 是 看 哪个 类 别 的 出 现 概率 更 大 ， 然 后 将 结果 判 为 该 类 。 但 如 果 
两 类 的 类 概率 仍然 相同 ， 该 如 何 处 理 ? 此 时 ， 我 们 可 依 字 母 次 序 来 决定 最 终 的 预测 结果 。 


对 此 进行 测试 时 ， 我 们 需要 依据 各 类 的 出 现 概率 为 它们 引入 一 个 优先 级 次 序 。 测 试 如 下 
# test/lib/spam_trainer_spec.rb 


describe SpamTrainer do 
describe 'scoring and classification' do 
it 'sets the preference based on how many times a category shows up' do 
expected = trainer.categories.sort_by {|cat| trainer.total_for(cat) } 


trainer.preference.must_equal expected 
end 


朴素 贝 叶 斯 分 类 | 61 


end 
end 


测试 具体 实施 的 代码 如 下 : 
# lib/spam_trainer.rb 


class SpamTrainer 
#def initialize 
#def total_for 
#def train! 
#def write 
#def score 
#def normalized_score 


def preference 
categories.sort_by {|cat| total_for(cat) } 
end 
end 


设置 好 各 类 别 优 先 级 后 ， 便 可 测试 分 类 结果 是 否 正确 ， 相 应 的 代码 如 下 : 
# test/lib/spam_trainer.rb 


describe SpamTrainer do 
describe ‘scoring and classification' do 
it 'gives preference to whatever has the most in it' do 
score = trainer.score(email) 
preference = trainer.preference. last 
preference_score = score.fetch(preference) 


expected = SpamTrainer::Classification.new(preference, preference_score) 
trainer.classify(email).must_equal expected 
end 


end 
end 


测试 具体 实施 的 代码 同样 十 分 简单 ， 如 下 所 示 : 


# lib/spam_trainer.rb 


class SpamTrainer 
Classification = Struct.new(:guess, :score) 
#def initialize 
#def total_for 
#def train! 
#def write 
#def score 
#def preference 
#def normalized_score 


def classify(email) 


score = score(email) 
max_score = 0.0 
max_key = preference. last 
score.each do |k,v| 

if v > max_score 


max_key = k 
max_score = v 
elsif v == max_score && preference.index(k) > preference. index(max_key) 
max_key = k 
max_score = v 
else 
# Do nothing 
end 


end 
throw 'error' if max_key.nil? 
Classification.new(max_key, max_score) 
end 
end 


4.3.6 通过 交叉 验证 将 错误 率 最 小 化 

现在 我 们 需要 对 所 构建 的 模型 的 性 能 进行 评价 。 为 此 ， 需 要 利用 之 前 下 载 的 数据 ， 并 通过 
交叉 验证 来 测试 。 在 交叉 验证 中 ， 我 们 只 需 关 注 假 正 率 ， 并 据 此 来 决定 是 否 需要 对 模型 参 
数 进 行 微调 。 

1. 最 小 化 假 正 率 

在 此 之 前 ， 我 们 的 目标 一 直 都 是 将 错误 率 最 小 化 。 错 误 率 可 由 被 误 分 类 的 样本 数目 除 以 被 
分 类 的 样本 总 数 得 到 。 在 大 多 数 情形 下 ， 这 都 完全 符合 我 们 的 期 望 ， 但 对 于 垃圾 邮件 过 滤 
器 ， 这 并 不 是 我 们 的 优化 目标 。 我 们 真正 希望 最 小 化 的 是 假 正 例 的 数量 。 假 正 例 也 称 为 第 
一 类 错误 ， 它 标识 模型 错误 地 将 一 个 负 例 预测 为 正 类 。 


在 本 例 中 ， 如 果 某 封 邮件 是 普通 邮件 ， 却 被 我 们 的 模型 预测 为 垃圾 邮件 ， 则 用 户 将 丢失 这 
封 邮 件 。 我 们 自然 希望 自己 的 垃圾 邮件 过 着 器 的 假 正 率 尽 可 能 地 低 。 另 一 方面 ， 如 有 果 某 封 
邮件 是 垃圾 邮件 ， 但 被 模型 错误 地 预测 为 普通 邮件 ， 则 我 们 不 会 特别 在 意 这 种 结果 。 


我 们 并 不 追求 总 错误 率 ( 即 误 分 类 样本 总 数 与 参与 分 类 的 样本 总 数 之 比 ) 最 小 化 ， 而 是 希 
望 假 正 率 最 小 。 我 们 也 会 度量 假 负 率 ， 但 这 个 指标 的 重要 性 要 次 之 ， 因 为 我 们 的 目标 是 降 
低 垃圾 邮件 进入 收 件 箱 的 几率 ， 而 非 完全 消除 垃圾 邮件 。 
为 此 ， 首 先 需 要 从 我 们 的 数据 集中 获取 一 些 信 息 ， 下 一 小 节 将 对 此 进行 介绍 。 
2. 构建 交叉 验证 的 数据 份 


在 垃圾 邮件 训练 数据 内 部 ， 是 一 个 名 为 keyfile.label 的 文件 ， 其 中 记录 了 每 个 文件 是 否 为 
垃圾 邮件 。 在 交叉 验证 测试 中 ， 通 过 下 列 代码 ， 很 容易 对 文件 进行 解析 : 
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# test/cross_validation_spec.rb 


describe 'Cross Validation' do 
def self.parse_emails(keyfile) 
emails = [] 
File.open(keyfile, 'rb').each_line do |line| 
label, file = line.split(/\s+/) 
emails << Email.new(filepath, label) 
end 
emails 
end 


def self.label_to_training_data(fold_file) 
training_data = [] 
st = SpamTrainer.new([]) 


File.open(fold_file, 'rb').each_line do |linel 
label, file = line.split(/\s+/) 
st.write(label, file) 

end 


st 
end 


def self.validate(trainer, set_of_emails) 
correct = 0 
false_positives 
false_negatives 
confidence = 0.0 


0.0 
0.0 


set_of_emails.each do |email| 
classification = trainer.classify(email) 
confidence += classification.score 


if classification.guess == 'spam' && email.category == 'ham' 
false_positives += 1 

elsif classification.guess == 'ham' && email.category == 'spam' 
false_negatives += 1 

else 
correct += 1 

end 

end 


total = false_positives + false_negatives + correct 


message = <<-EOL 
False Positives: #{false_positives / total} 
False Negatives: #{false_negatives / total} 


Accuracy: #{(false_positives + false_negatives) / total} 
EOL 


message 
end 
end 


3. 交叉 验证 与 误差 度量 
从 这 里 开始 ， 我 们 可 真正 开始 构建 交叉 验证 测试 ， 


# test/cross_validation_spec.rb 
describe 'Cross Validation' do 
describe "Fold1 unigram model" do 
let(:trainer) { 
self.class.label_to_training_data('./test/fixtures/fold1.label' ) 


} 


let(:emails) { 
self.class.parse_emails('./test/fixtures/fold2.label') 


} 


it "validates fold1 against fold2 with a unigram model" do 
skip(self.class.validate(trainer, emails)) 
end 
end 


describe "Fold2 unigram model" do 
let(:trainer) { 
self.class.label_to_training_data('./test/fixtures/fold2.label' ) 
} 


let(:emails) { 
self.class.parse_emails('./test/fixtures/fold1.label') 


} 


it "validates fold2 against fold1 with a unigram model" do 
skip(self.class.validate(trainer, emails)) 
end 
end 
end 


运行 命令 ruby test/cross_validation_spec.rb 时 ， 会 得 到 下 列 结果 : 


WARNING: Could not parse (and so ignoring) 'From spamassassin-devel-admin@lists. 
sourceforge.net Fri Oct 4 11:07:38 2002' 
Parsing emails for ./test/fixtures/fold2.label 
WARNING: Could not parse (and so ignoring) 'From quinlan@pathname.com Thu Oct 1 
0 12:29:12 2002' 
Done parsing emails for ./test/fixtures/fold2. label 
Cross Validation: :Fold1 unigram model 
validates fold1 against fold2 with a unigram model 


False Positive Rate (Bad): 0.0036985668053629217 
False Negative Rate (not so bad): 0.16458622283865001 
Error Rate: 0.16828478964401294 


WARNING: Could not parse (and so ignoring) 'From quinlan@pathname.com Thu Oct 1 
0 12:29:12 2002' 

Parsing emails for ./test/fixtures/fold1. label 

WARNING: Could not parse (and so ignoring) 'From spamassassin-devel-admin@lists. 
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sourceforge.net Fri Oct 4 11:07:38 2002' 
Done parsing emails for ./test/fixtures/fold1. label 
Cross Validation: :Fold2 unigram model 


validates fold2 against foldi with a unigram model 


False Positive Rate (Bad): 0.005545286506469501 
False Negative Rate (not so bad): 0.17375231053604437 


Error Rate: 0.17929759704251386 


你 会 注意 到 假 负 率 (将 垃圾 邮件 预测 为 普通 邮件 的 比例 ) 


远 高 于 假 正 率 (将 普通 邮件 预 济 


为 垃圾 邮件 的 比例 )， 造 成 这 种 结果 的 根本 原因 在 于 贝 叶 斯 定理 。 下 面 通 过 表 4-3 观察 一 下 


普通 邮件 和 垃圾 邮件 的 实际 概率 。 


表 4-3: 垃圾 邮件 与 普通 邮件 


7 


Al 邮件 数目 单词 数目 邮件 的 概率 单词 的 概率 
垃圾 邮件 1378 231 472 31.8% 36.3% 
普通 邮件 2949 406 984 68.2% 63.7% 
总 计 4327 638 456 100% 100% 


如 你 所 见 ， 普 通 邮件 的 出 现 概 率 更 高 ， 因 此 我 们 会 将 


疑似 过 级 邮件 的 邮件 判 为 普通 闻 件 。 然 而 ， 这 样 做 的 一 个 好 处 是 可 减少 80g 的 垃圾 邮 从 


而 不 会 影响 新 到 来 的 邮件 。 


4.4 小 结 


通 邮 件 作为 默认 类 别 ， 并 常常 会 将 


ay 


本 章 深入 探讨 了 如 何 构建 和 理解 朴素 贝 叶 斯 分 类 器 。 我 们 了 解 了 该 算法 适用 于 数据 相互 独 
立 的 场景 。 作 为 一 个 概率 模型 ， 在 需要 将 数据 依据 得 分 分 类 到 多 个 分 支 的 场合 中 ， 该 方法 


往往 具有 良好 的 性 能 。 这 种 有 监督 学 习 方 法 对 于 欺诈 检测 、 
些 特 征 类 型 的 问题 都 很 适用 。 


垃圾 邮件 过 让 以 及 其 他 拥有 这 


第 5 章 


隐 马 尔 可 夫 模型 


我 们 的 许多 行为 都 是 靠 直觉 驱动 的 。 例 如 ， 直 觉 会 告诉 我 们 某 些 单词 可 能 为 某 种 词性 ， 或 
者 如 果 一 位 用 户 访问 了 注册 页 ， 则 他 便 有 很 大 的 概率 成 为 一 名 客户 。 但 我 们 如 何 去 构 建 一 
个 关于 直觉 的 模型 呢 ? 


本 章 的 主题 是 隐 马 尔 可 夫 模 型 ， 它 非常 善于 利用 观测 量 以 及 对 系统 状态 工作 原理 的 假设 ， 
找到 给 定 系 统 的 隐 含 状态 。 在 本 章 中 ， 我 们 将 首先 讨论 如 何在 给 定 用 户 行为 时 追踪 用 户 的 
状态 ， 然 后 详细 讨论 何 为 隐 马 尔 可 夫 模 型 ， 最 后 利用 布朗 语料库 (Brown Corpus) 来 构建 
一 个 词性 标注 器 。 


隐 马 尔 可 夫 模 型 既 可 是 有 监督 的 ， 也 可 是 无 监督 的 。 由 于 它们 都 是 以 马尔 可 
夫 模 型 为 基础 的 ， 因 此 也 称 其 具有 无 后 效 性 (或 马尔 可 夫 性 ，Markovian) 
的 。 这 些 模型 无 需 内 置 大 量 历史 信息 ， 便 可 表现 出 优异 的 性 能 。 此 外 ， 对 于 
需要 为 分 类 任务 添加 局 部 上 下 文 的 场合 ， 该 方法 也 十 分 适用 。 


5.1 利用 状态 机 跟踪 用 户 行为 


你 是 否 听 说 过 销售 漏斗 (sales funnel) ? 这 个 概念 描述 的 是 不 同 层次 的 客户 之 间 的 转换 关 
系 。 人 们 最 初 是 淤 在 客户 ， 而 后 发 展 为 参与 度 更 高 的 状态 (参见 图 5-1)。 


假设 我 们 拥有 一 个 网 店 ， 并 已 知 在 访问 该 网 站 的 潍 在 客户 中 有 15% 会 进行 注册 ， 而 5% 会 
立即 成 为 客户 。 若 访问 者 已 成 为 用 户 ， 则 他 会 在 5% 的 时 间 内 销 账 ， 在 15% 的 时 间 内 购买 
商品 。 若 访问 者 已 成 为 客户 ， 则 他 仅 会 在 2% 的 时 间 内 销 账 ， 在 95% 的 时 间 内 作为 普通 客 
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户 ， 而 不 会 持续 地 购买 商品 。 


5-1: 描述 了 从 潜在 客户 到 实际 客户 的 销售 漏斗 


z> 


所 谓 “潜在 客户 ”是 指 那些 访问 站 点 1~2 次 ， 但 通常 没有 实际 购买 行为 的 
“潜水 者 "。 用 户 则 倾向 于 浏览 网 站 ， 并 偶尔 有 购物 行为 。 最 后 ， 客 户 的 参与 
度 较 高 ， 有 购物 行为 ， 但 通常 不 会 在 短 时 间 内 购买 大 量 商品 ， 因 此 会 临时 转 
变 为 用 户 。 


可 将 我 们 所 收集 的 信息 用 转移 算 阵 (transition matrix) 来 表示 。 借 助 它 ， 可 清晰 地 展示 从 
一 个 状态 到 另 一 个 状态 的 转移 概率 。 


表 5-1: 转移 概率 
潜在 客户 ”用户 客户 


ERP 0.80 0.15 0.05 
用 户 0.05 0.80 0.15 
客户 0.02 0.95 0.03 


转移 概率 实际 上 定义 了 一 个 状态 机 (如 图 5-2 所 示 )。 此 外 ， 它 还 揭示 了 关于 当前 客户 行为 模 
式 的 大 量 信息 。 我 们 可 确定 转移 率 、 流 失 率 和 其 他 概率 。 转 移 率 (conversion rate) 是 一 名 潜 
在 客户 注册 的 概率 ， 即 20%。 它 等 于 从 潜在 客户 变 为 用 户 的 概率 与 从 潜在 客户 变 为 客户 的 概 
率 之 和 (15%+5%). HAF (attrition rate) 则 可 通过 取 5% 和 2% 的 均值 来 得 到 ， 即 3.5%。 


5-2: 带 有 转移 概率 的 销售 漏斗 状态 机 
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在 分 析 中 ， 这 种 展示 用 户 行为 的 方式 并 不 常见 ， 因 为 它 过 于 直 白 。 但 与 传统 的 转移 率 计算 
相 比 ， 它 有 一 个 优点 ， 即 通过 它 可 观测 用 户 行为 随时 间 的 变化 。 例 如 ， 假 设 某 位 客户 之 前 
四 次 均 为 潜在 客户 ， 则 我 们 可 确定 他 当前 为 潜在 客户 的 概率 。 该 值 等 于 为 潜在 客户 的 概率 
(比如 80%) 乘 以 之 前 四 次 为 潜在 客户 的 概率 〈 均 为 80%)。 某 人 持续 浏览 网 站 但 并 不 注册 
的 几率 很 低 ， 因 为 他 最 终 可 能 会 注册 。 


但 这 个 模型 的 主要 问题 是 ， 如 果 不 单独 询问 每 个 用 户 ， 我 们 是 无 法 可 靠 地 确定 这 些 状 态 
的 。 也 就 是 说 用 户 的 状态 是 不 可 观测 的 ， 因 为 用 户 可 以 匿名 方式 浏 站 点 。 


很 快 你 将 了 解 到 ， 这 其 实 问题 不 大 。 只 要 我 们 能 够 观察 到 用 户 与 站 点 之 间 的 交互 ， 并 能 判 
断 来 自 其 他 源 的 内 部 转移 情况 〈 如 借助 Google Analytics) ， 则 我 们 仍然 能 够 求解 该 问题 。 


为 此 ， 我 们 需要 引入 另 一 个 层次 的 复杂 性 一 一 输出 (emission)。 


5.1.1 隐 含 状态 的 输出 和 观测 

在 前 面 的 例子 中 ， 我 们 并 不 清楚 某 人 何 时 会 从 潜在 客户 转变 为 用 户 ， 或 转变 为 客户 。 但 我 
们 能 够 观察 到 用 户 所 做 的 事 以 及 他 的 行为 。 我 们 知道 ， 对 于 一 个 给 定 的 观测 结果 ， 都 存在 
一 个 他 处 于 某 个 给 定 状态 的 概率 。 


可 通过 观察 用 户 发 出 的 行为 来 确定 其 隐 仿 状态。 例如， 假设 我 们 的 站 点 中 共 含 有 5 个 页 
面 : 主页 (Home)、 注 册页 (Signup)、 产 品 页 (Product) 、 结 账 页 (Checkout) 以 及 联系 
页 (Contact Us)。 你 会 想到 ， 这 些 页 面 对 我 们 的 重要 性 不 尽 相同 。 例 如 ， 注 册页 很 大 程度 
上 意味 着 潜在 客户 变 成 了 用 户 ， 而 结账 页 则 表明 用 户 已 转变 为 客户 。 


由 于 处 在 这 些 状 态 的 概率 已 知 ， 这 些 信息 变 得 更 加 有 趣 了 。 假 设 我 们 已 知 的 输出 概率 和 状 
态 概 率 如 表 5-2 所 示 。 


表 5-2: 输出 概率 和 状态 概率 


页 面 名 称 潜在 客户 用 户 客户 
Home (主页 ) 0.4 0.3 0.3 
Signup (注册 页 ) 0.1 0.8 0.1 
Product (产品 页 ) 0.1 0.3 0.6 
Checkout (结账 页 ) 0 0.1 0.0 
Contact Us (联系 页 ) 0.7 0.1 0.2 


我 们 已 经 知道 了 用 户 切 换 状态 的 概率 ， 以 及 给 定 隐 含 状态 他 们 发 出 某 种 行为 的 概率 。 我 们 
关心 的 是 ， 给 定 这 些 信 息 后 ， 查 看 了 主页 、 注 册页 、 产 品 页 的 用 户 成 为 客户 的 概率 是 多 
少 ? 即 ， 我 们 希望 解决 如 图 5-3 所 描述 的 问题 。 


图 5-3: 你 仅 能 观察 到 用 户 所 做 的 事 ， 但 隐 含 状态 不 可 见 


为 解决 这 个 问题 ， 我 们 需要 确定 在 给 定 用 户 之 前 的 全 部 状态 的 条 件 下 ， 用 户 处 于 客户 
状态 的 概率 ， 即 P(Customer|$1,S;,， 以 及 在 给 定 用 户 为 客户 状态 的 条 件 下 ， 用 户 查 看 
产品 页 面 的 概率 与 给 定 隐 含 状态 S S 条 件 下 分 别 观看 主页 和 注册 页 的 概率 之 积 ， 即 
P(Product_Page| Customer) * P(Signup_Page | S2) * P (Homepage| 51)。 现 在 的 问题 在 于 ， 未 
知 量 的 个 数 要 多 于 已 知 量 。 


这 个 有 限 模 型 求解 起 来 十 分 困难 ， 因 为 其 中 涉及 了 大 量 计算 。 计算 如 P(Customer| SS2，…,Sw) 
X 样 的 问题 非常 复杂 。 为 解决 该 问题 ， 我 们 需要 引入 马尔 可 夫 假 设 。 


Be 


在 隐 马 尔 可 夫 模型 的 术语 中 ， 输 出 (emission) 和 观测 (observation) 经 常 
交 赫 使 用 。 二 者 实际 上 是 等 同 的 ， 均 是 指 某 个 过 程 产生 的 输出 或 你 可 观测 到 
的 量 。 


5.1.2 ”利用 马尔 可 夫 假 设 简化 问题 

你 可 能 还 记得 ， 在 朴素 贝 叶 斯 分 类 中 ， 每 个 属性 会 对 一 些 事件 的 概率 独立 地 产生 贡献 。 因 
此 ， 对 于 垃圾 邮件 ， 给 定 如 Prince 和 Buy now 这 样 的 单词 或 短语 时 ， 各 概率 条 件 独立 。 而 
在 上 面 的 依据 用 户 行为 所 构建 的 模型 中 ， 随 机 变量 之 间 的 依赖 关系 是 我 们 所 希望 有 的 。 具 
体 说 来 ， 我 们 希望 前 一 次 的 状态 对 下 一 次 状态 的 概率 产生 影响 。 实 际 上 ， 我 们 可 以 断言 上 
一 次 状态 与 用 户 的 当前 状态 存在 某 种 关系 。 


在 朴素 贝 叶 斯 分 类 模型 中 ， 我 们 所 做 的 假设 是 ， 给 定 一 些 事件 ， 某 些 事物 的 概率 条 件 
立 。 因 此 ， 垃 圾 邮件 对 于 邮件 中 的 每 个 单词 都 是 条 件 独 立 的 。 


对 于 我 们 的 当前 系统 ， 也 可 做 出 同样 的 假设 。 我 们 可 假设 用 户 处 于 某 个 特定 状态 的 概率 主 


>x 


Gi 
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要 取决 于 前 一 个 状态 。 因 此 ， 可 将 P(Customer| 51,52,…,S;) 简化 为 P(Customer|S,). {Hix Ph 
简化 的 依据 何在 ? 


给 定 如 前 所 定义 的 状态 机 ， 系 统 可 以 递归 地 对 你 过 去 所 处 的 状态 进行 概率 推断 。 例 如 ， 如 
果 站 点 的 某 个 访问 者 处 于 客户 状态 ， 则 你 可 以 说 他 之 前 最 可 能 的 状态 是 用 户 ， 而 在 此 之 前 
他 最 有 可 能 的 状态 是 潜在 客户 。 


从 这 个 假设 还 可 得 出 一 个 令 人 兴奋 的 结论 ， 这 将 我 们 引 问 下 一 个 话题 一 一 马尔 可 夫 链 
(Markov chain) 。 


5.1.3 利用 马尔 可 夫 链 而 非 有 限 状 态 机 

到 目前 为 止 ， 我 们 只 讨论 了 一 个 系统 ， 而 这 个 系统 仅 包 含 一 个 输出 。 马 尔 可 夫 假 设 的 强 
大 之 处 在 于 ， 我 们 可 将 待 建 模 的 系统 视 为 处 于 永恒 的 运转 之 中 。 我 们 并 不 关心 该 过 程 的 
某 个 局 部 时 间 点 的 状态 ， 而 是 希望 推断 该 系统 的 稳 态 行为 。 马 尔 可 夫 链 的 形成 正 是 基于 


马尔 可 夫 链 在 系统 模拟 方面 表现 十 分 突出 ， 它 在 队列 理论 、 金 融 、 气 象 建 模 以 及 博弈 论 中 
均 被 大 量 运 用 。 这 类 模型 之 所 以 强大 ， 是 因为 它们 能 够 以 简洁 的 方式 表示 各 种 行为 。 此 
外 ， 当 给 定 某 个 马尔 可 夫 链 时 ， 我 们 还 可 迅速 地 确定 如 何 对 系统 的 行为 作出 假设 。 


借助 马尔 可 夫 链 ， 我 们 可 对 一 个 永恒 持续 的 潜在 过 程 进行 分 析 ， 并 发 现 一 些 有 用 信息 。 但 
这 并 不 足以 解决 我 们 的 基本 问题 ， 即 我 们 仍然 需要 确定 当 给 定 某 人 之 前 的 隐 含 状态 和 我 们 
自己 的 观察 时 ， 他 的 当前 状态 。 为 此 ， 我 们 需要 引入 隐 含 状态 来 增强 马尔 可 夫 链 。 


5.1.4 ” 隐 马 尔 可 夫 模 型 

前 面 通过 大 量 篇 幅 来 讨论 观测 和 潜在 状态 的 转移 ， 但 我 们 发 现 问题 又 回 到 了 原点 。 我 们 仍 
然 需 要 指出 用 户 的 当前 状态 。 为 此 ， 我 们 可 使 用 隐 马 尔 可 夫 模 型 (Hidden Markov Model), 
该 模型 由 下 列 三 个 要 素 构 成 。 


。 评估 : 如 “主页 一 注册 页 一 产品 页 一 结账 页 ”这 样 的 序列 在 我 们 掌握 的 用 户 状态 转移 和 
观测 中 的 出 现 概率 有 多 大 ? 

。 解码 : 给 定 该 序列 ， 最 可 能 的 隐 状 态 序 列 是 什么 ? 

。 学 习 : 给 定 观测 序列 ， 用 户 接 下 来 最 有 可 能 的 行为 是 什么 ? 

在 接 下 来 的 几 节 中 ， 我 们 将 详细 讨论 这 三 个 要 素 。 首 先 ， 我 们 将 介绍 用 于 评估 观测 序列 的 

前 向 - 后 向 算法 (Forward-Backward algorithm) ; 之 后 ， 我 们 将 深入 探讨 如 何 利用 维特 比 

算法 来 解决 解码 问题 ， 最 后 ， 作 为 对 解码 的 扩展 ， 我 们 将 介绍 学 习 的 主要 思想 。 


* = v `, 
5.2 评估 : 前 向 -后 向 算法 
评估 的 目的 是 求 取 某 个 给 定 序列 的 出 现 概率 。 在 需要 确定 你 的 模型 以 多 大 的 概率 创建 了 竺 
建 模 序 列 时 ， 评 估 便 十 分 重要 。 此 外 ， 在 确定 如 序列 “主页 一 主页 ”的 概率 是 否 比 序列 
“主页 一 注册 页 ”更 高 时 ， 评 估 也 极为 有 用 。 可 利用 前 向 - 后 向 算法 来 完成 评估 。 该 算法 
的 目标 是 计算 某 个 隐 含 状态 与 观测 的 概率 依赖 关系 。 


前 向 - 后 向 算法 的 数学 表示 

前 向 -后 向 算法 用 于 在 给 定 某 个 输出 的 隐 含 状态 时 ， 计 算 该 输出 发 生 的 概率 ， 即 
P(ely)。 乍 看 上 去 ， 这 个 概率 的 计算 非常 困难 ， 因 为 其 中 涉及 大 量 概率 。 如 果 我 们 借 
助 链 式 规则 ， 表 达 式 会 迅速 扩展 。 幸 运 的 是 ， 我 们 可 利用 一 种 非常 简单 的 策略 来 进行 
给 定 某 个 观测 序列 时 ，ex 的 概率 与 eg 和 观测 量 的 联合 概率 成 正比 ， 即 

pler| s) « plens) 
利用 概率 链 式 法 则 ， 可 将 Plens) 分 解 为 两 项 的 乘积 : 

D (Skt Sk42 | ek S1, 52, +, SK) p (€k S1, 52, 53 SK) 

这 样 分 解 看 起 来 并 无 明显 的 益处 ， 然 而 实际 上 我 们 可 以 将 第 一 个 概率 表达 式 中 的 
SS, AF, A ARXAR DIAH] (D-Separated) 。 我 不 打算 在 这 里 用 太 多 篇 幅 
讨论 D 分 离 ， 但 由 于 我 们 之 前 已 对 模型 做 过 马尔 可 夫 假设 ， 所 以 可 放心 地 “忘记 ”这 
些 变量 ， 因 为 它们 都 位 于 我 们 概率 模型 中 感 兴趣 的 时 间 点 之 前 ， 从 而 有 


P(e | 8) & p seri ser2, ,sn| CK) p (er $1,525 ps 


这 便 是 前 向 一 后 向 算法 | 


我 们 可 将 其 设想 为 一 条 穿 过 如 图 5-4 所 示 的 概率 空间 的 路 径 。 当 给 定 某 个 特定 的 输出 (如 
E2) 时 ， 我 们 可 通过 查看 前 向 概率 和 后 向 概率 来 计算 该 输出 的 概率 值 。 


前 向 项 表示 的 是 当 给 定 截至 某 个 时 间 点 的 所 有 输出 时 ， 位 于 点 的 隐 含 状态 的 联合 概率 。 
后 向 项 描述 的 则 是 给 定 隐 含 点 时 ， 从 k+1 到 最 后 的 输出 的 条 件 概率 。 


利用 用 户 行 为 
利用 之 前 “主页 一 注册 页 一 产品 页 一 结账 页 ”的 例子 ， 可 借助 前 向 - 后 向 算法 计算 该 序列 
在 我 们 的 模型 内 部 发 生 的 概率 。 首 先 ， 构 造 一 个 名 为 ForwardBackward 的 类 以 对 问题 进行 


设 定 。 


require 'matrix' 
class ForwardBackward 
def initialize 
@observations = ['homepage', 'signup', 'product', 'checkout' ] 


@states = ['Prospect', 'User', 'Customer' ] 

@emissions = ['homepage', 'signup', ‘product page', 'checkout', 
"contact us'] 

@start_probability = [0.8, 0.15, 0.05] 


@transition_probability = Matrix[ 
[0.8, 0.15, 0.05], 

[0.05, 0.80, 0.15], 

[0.02, 0.95, 0.03] 

] 


@emission_probability = Matrix[ 
[0.4, 0.3, 0.3], # homepage 
[0.1, 0.8, 0.1], # signup 
[0.1, 0.3, 0.6], # product page 
[0, 0.1, 0.9], # checkout 
[0.7, 0.1, 0.2] # contact us 

] 

end 
end 


ZE, PAA ST ZAR ae, DIPS RoR ME A HS. OR, Bede BE 
定义 前 向 步 ， 如 下 所 示 : 


class ForwardBackward 
# Initialize 
def forward 
forward = [] 
f_previous = {} 
@observations.each_with_index do |obs, i] 


f_curr = {} 
@states.each do |state| 
if i.zero? 
prev_f_sum = @start_probability.fetch(state) 
else 


prev_f_sum = @states.reduce(0.0) do |sum, k| 
sum += f_previous.fetch(k, 0.0) * @transition_probabilit.fetch(k). 
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fetch(state) 
end 
end 
f_curr[state] = @emission_probability.fetch(state).fetch(obs) * 
prev_f_sum 
forward << f_curr 
f_previous = f_curr 
end 
end 


p_fwd = @states.reduce(0.0) do |sum, k| 
sum += f_previous.fetch(k) * @transition_probability.fetch(k). fetch 
(@end_state) 

end 


{ 
"probability' => p_fwd, 
"sequence' => forward 


} 
end 
end 


对 于 每 个 观测 ， 前 向 算法 会 遍历 每 个 状态 ， 并 将 其 相 乘 以 得 到 一 个 关于 在 给 定 上 下 文中 状 
态 如 何 转换 的 前 向 概率 。 接 下 来 ， 我 们 需要 定义 后 向 算法 : 


cLass FowardBackward 
# initialize 
# forward 


def backward 
backward = [] 
b_prev = {} 


%w[None].concat(@observations[1..-1].reverse).each_with_index do 
|x_i_plus, il 
b_curr = {} 
@states.each do |state| 
if i.zero? 
b_curr[state] = @transition_probability.fetch(state).fetch(@end_state) 
else 
b_curr[state] = @states.reduce(@.0) do |sum, k| 
sum += @transition_probability.fetch(state).fetch(k) * 
@emission_probability.fetch(k).fetch(x_i_plus) * b_prev.fetch(k) 
end 
end 
end 


backward.insert(0, b_curr) 
b_prev = b_curr 
end 


p_bkw = @states.reduce(0.0) do |sum, s| 
sum += @start_probability.fetch(s) * @emission_probability.fetch(s). 
fetch(@observations[0]) * b_prev.fetch(s) 


end 


"probability' => p_bkw, 
"sequence' => backward 


} 
end 
end 


后 向 算法 的 工作 原理 与 前 向 算法 非常 类 似 ， 区 别 仅 在 于 二 者 行进 的 方向 相反 。 接 着 ， 我 们 
需要 同时 测试 前 向 和 后 向 算法 ， 以 确保 二 者 能 够 得 到 相同 的 结果 (否则 便 说 明 我 们 的 算法 
有 误 ) : 


class FowardBackward 

# initialize 

# forward 

# backward 

def forward_backward 
size = @observations. length 
fwd, p_fwd = forward.values 
bkwd, p_bkw = backward.values 


# 将 两 部 分 合并 
posterior = {} 
@states.each do |state| 
posterior[state] = (1..size).map do |i] 
fwd[i][state] * bwkd[i][state] / p_fwd 
end 
end 


return fwd, bkw, posterior 
end 
end 


前 向 - 后 向 算法 之 美体 现在 当 它 运行 时 ， ee 这 听 起 来 非常 
令 人 兴奋 。 该 算法 能 够 求解 评估 问题 一 一 但 请 牢记 ， 这 意味 着 求 取 某 个 给 定 序列 的 出 现 概 
ee a ee 状态 序列 。 


5.3 利用 维特 比 算 法 求解 解码 问题 


解码 问题 最 容易 描述 。 给 定 某 个 观测 序列 ， 我 们 希望 依据 已 经 掌握 的 证 据 求 取 最 优 的 状态 
路 径 。 这 个 目标 可 用 数学 语言 表述 为 r*= argmaxrP(x,r) ， 其 中 元 为 状态 向 量 ， 而 >x 为 观 
测 值 。 


为 此 ， 我 们 可 利用 维特 比 算 法 (Viterbi 算法 )。 你 可 将 该 算法 理解 为 一 种 构造 最 大 伸展 树 
的 方法 。 当 给 定 当 前 状态 时 ， 我 们 试图 找 出 到 达 下 一 个 状态 的 最 优 路 径 。 与 其 他 贪心 算法 
类 似 ， 维 特 比 算法 也 需要 遍历 所 有 可 能 的 下 一 步 状态 ， 并 从 中 选择 一 个 最 优 解 。 
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该 过 程 可 表示 为 图 5-5。 


图 5-5: 随 着 时 间 的 推 欧 ， 一 个 拥有 较 高 概率 的 状态 将 获胜 


从 上 图 中 可 以 看 出 一 个 状态 (如 S1) 的 相关 性 如 何 随时 间 的 推移 降低 ， 而 状态 S3 的 相关 
性 与 其 他 状态 相 比 逐渐 增加 。 图 中 箭头 的 明暗 表明 了 概率 的 减 小 情况 。 


我 们 的 目标 是 通过 该 算法 以 最 优 的 方式 遍历 一 个 状态 集合 。 为 此 ， 我 们 确定 当 给 定 输出 
以 及 从 之 前 的 状态 转换 到 当前 状态 的 概率 时 ， 某 个 状态 发 生 的 概率 。 然 后 ， 将 那 这 个 概率 
相 乘 ， 从 而 得 到 序列 的 出 现 概 率 。 对 整个 序列 进行 迭代 ， 最 终 便 可 找到 最 优 序列 。 


5.4 学 习 问 题 

学 习 问 题 可 能 是 最 容易 实现 的 一 个 问题 。 给 定 状 态 和 观测 序列 ， 接 下 来 最 有 可 能 发 生 什 
A? 我 们 完全 可 以 只 依据 维特 比 序列 来 确定 下 一 步 。 由 于 此 时 尚 无 输出 ， 我 们 需要 通过 最 
大 化 下 一 步 的 状态 概率 ， 以 确定 接 下 来 的 状态 。 但 我 们 也 可 求 得 最 可 能 的 输出 以 及 概率 最 
大 的 状态 ， 它 们 被 称 为 下 一 步 最 优 状 态 输 出 组 合 (the next optimal state emission combo), 
如 果 你 对 这 种 求解 方式 不 太 了 解 ， 请 不 要 担心 。 在 下 一 节 中 ， 我 们 将 更 深入 地 探讨 维特 比 
算法 的 使 用 。 
不 幸 的 是 ， 目 前 尚 无 免费 和 易于 获取 的 数据 ， 来 分 析 给 定 用 户 的 页 面 浏览 量 时 用 户 行为 随 
着 时 间 的 变化 ， 但 还 有 另 一 个 类 似 的 问题 ， 我 们 仅 利用 隐 马 尔 可 夫 模 型 来 构建 一 个 词性 标 
注 器 便 可 解决 它 。 


5.5 利用 布朗 语料库 进行 词性 标注 
假设 给 定 短语 “the quick brown fox"， 我 们 如 何 对 其 进行 词性 标注 ?我 们 知道 ， 英 语 中 的 


词性 包括 限定 词 、 形 容 词 和 名 词 等 。 我 们 可 能 会 将 该 短语 中 的 各 单词 分 别 标注 为 限定 词 、 
形容 词 、 形 容 词 、 名 词 。 这 个 标注 例子 非常 简单 ， 因 为 我 们 对 于 英语 语法 有 基本 的 了 解 ， 
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但 如 何 通过 算法 训练 一 个 模型 来 完成 这 样 的 任务 呢 ? 


当然 ， 由 于 本 章 是 专门 介绍 隐 马 尔 可 夫 模型 的 ， 所 以 我 们 准备 利用 它 来 完成 最 优 词 性 标 
注 。 基 于 对 隐 马 尔 可 夫 模型 的 了 解 ， 对 于 一 个 给 定 的 单词 序列 ， 我 们 可 利用 维特 比 算法 来 
获得 最 优 的 标注 序列 。 本 闻 中 ， 我 们 将 利用 布朗 语料库 ， 它 是 第 一 个 电子 化 的 语料库 。 该 
语料库 中 包含 了 上 百 万 个 带 有 词性 标注 信息 的 单词 。 标 注 的 清单 非常 长 ， 但 请 放心 ， 其 中 
仅 包含 常见 的 标注 ， 如 形容 词 、 名 词 和 动词 等 。 


布朗 语料库 是 利用 一 种 特定 类 型 的 标注 方法 构建 的 。 对 于 每 个 单词 序列 ， 你 会 看 到 一 些 这 
样 的 文字 : 


Most/ql important/jj of/in all/abn ,/, the/at less/ql developed/vbn countries/nns must/md be/be 
persuaded/vbn to/to take/vb the/at necessary/jj steps/nns to/to allocate/vb and/cc commit/vb 


their/pp$ own/jj resources/nns ./. 


在 这 个 例子 中 ，Most 的 词性 为 ql (表示 限定 词 )，important 的 词性 为 ij (表示 形容 词 )， 以 
此 类 推 ， 直 到 ./.， 这 表示 一 个 被 标注 为 停止 词 “.” 的 英语 句号 。 


这 里 唯一 缺少 的 是 句子 的 开始 字符 。 一 般 说 来 ， 在 我 们 编写 马尔 可 夫 模 型 时 ， 我 们 希望 得 
到 位 置 在 t+ 和 1 的 单词 。 由 于 most 位 于 句子 最 开始 ， 它 的 前 面 没 有 其 他 单词 ， 因 此 我 们 
使 用 一 个 特殊 的 名 称 一 一 START 来 表明 该 序列 的 开始 。 这 样 ， 我 们 便 可 度量 从 START 到 
某 个 限定 词 的 转移 概率 。 


安装 说 明 


本 例 所 使 用 的 全 部 代码 均 可 从 Github 获取 : https://github.com/thoughtfulml/ 


examples/tree/master/4-hidden-markov-models。 


由 于 Ruby 处 于 持续 的 发 展 和 更 新 中 ， 因 此 README 是 了 解 如 何 运 行 这 些 示 
例 的 最 佳 参 考 资料 。 


用 Ruby 来 运行 本 例 ， 不 需要 其 他 任何 依赖 库 。 


5.5.1 词性 标注 器 的 首要 问题 : CorpusParser 
词性 标注 器 首先 要 解决 的 问题 是 如 何 接收 数据 。 最 重要 的 一 点 是 应 传递 给 它 恰当 的 信息 ， 
以 使 词性 标注 器 能 够 利用 数据 ， 并 从 中 学 习 。 在 开始 之 前 ， 我 们 需要 对 词性 标注 器 的 工作 
方式 做 一 些 假设 。 我 们 希望 将 每 次 单词 标签 组 合 的 转移 记录 在 一 个 二 维 数组 中 ， 并 将 其 包 
庄 在 一 个 名 为 CorpusParser::TagWord 的 简单 类 中 。 初 始 测试 代码 如 下 : 
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# test/lib/corpus_parser_spec.rb 
require 'spec_helper' 


describe CorpusParser do 
let (:stream) { "\tSeveral/ap defendants/nns ./.\n" } 
let (:blank) { "\t \n" } 
it ‘will parse a brown corpus line using the standard / notation' do 
cp = CorpusParser.new 


null = CorpusParser: :TagWord.new("START", "START") 

several = CorpusParser::TagWord.new("Several", "ap") 
defendants = CorpusParser::TagWord.new("defendants", "nns" 
period = CorpusParser::TagWord.new(".", ".") 


expectations = [ 
[null, several], 
[several, defendants], 
[defendants, period] 


] 


cp.parse(stream) do |ngram| 
ngram.must_equal expectations. shift 
end 


expectations. length. zero?.must_equal true 
end 


it 'does not allow blank lines from happening' do 
cp = CorpusParser.new 


cp.parse(blank) do |ngram| 
raise "Should never happen" 
end 
end 
end 


这 段 代 码 接收 了 类 似 于 布朗 语料库 的 两 个 例子 ， 并 进行 检查 ， 以 确保 它们 可 被 正确 解析 。 
第 二 个 例子 是 一 个 全 面 检查 ， 目 的 是 确保 将 空 行 忽略 ， 因 为 在 布朗 语料库 中 空 行 非常 多 。 


对 CorpusParser 类 进行 完善 ， 将 得 到 下 列 代码 : 
# lib/corpus_parser.rb 


class CorpusParser 
TagWord = Struct.new(:word, :tag) 
NULL_CHARACTER = "START" 
STOP = " \n" 
SPLITTER = '/' 


def initialize 
@ngram = 2 
end 


def parse(io) 


ngrams = @ngram.times.map { TagWord.new(NULL_CHARACTER, NULL_CHARACTER) } 


ww 


word = 
pos = 
parse_word = 


io.each_char 

if char == 
next 

elsif char 


true 


do |char| 
"\t" || (word.empty? && STOP.include?(char)) 


== SPLITTER 


parse_word = false 


elsif STOP. 


include? (char) 


ngrams.shift 
ngrams << TagWord.new(word, pos) 


yield ngrams 


word = 
pos = 


parse_word = true 
elsif parse_word 
word += char 


else 


pos += char 


end 
end 


unless pos.empty? || word.empty? 
ngrams.shift 
Ngrams << TagWord.new(word, pos) 
yield ngrams 


end 
end 
end 


与 上 一 章 一 样 ， 利 用 each_char 来 实现 解析 器 是 用 Ruby 完成 解析 任务 的 最 高 效 方式 。 现 


在 我 们 准备 进入 更 有 趣 的 环节 : 编写 词性 标注 器 。 


5.5.2 ”编写 词性 标注 器 
词性 标注 器 应 当 具 有 如 下 三 种 功能 : 从 CorpusParser 获取 数据 ， 存储 数据 ， 以 便 我 们 计算 
单词 标签 组 合 的 概率 ;计算 标签 转移 的 概率 。 我 们 希望 该 类 能 够 告诉 我 们 单词 和 标签 序列 


的 概率 值 ， 以 及 当 给 定 一 个 纯 文本 的 句子 时 ， 确 定 甚 最 优 的 标签 序列 。 


为 此 ， 我 们 需要 首先 解决 概率 计算 问题 ， 其 次 是 给 定 一 个 单词 序列 后 ， 计 算 其 标签 序列 。 
最 后 ， 我 们 将 实现 维特 比 算法 。 


我 们 首先 来 探讨 给 定 前 一 位 置 的 单词 的 标签 ， 如 何 计算 当前 单词 的 词性 为 某 个 标签 的 概 
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率 。 利 用 最 大 似 然 估计 法 ， 我 们 可 断言 该 概率 值 应 等 于 这 两 个 标签 同时 出 现 的 次 数 除 以 前 
一 个 标签 的 出 现 次 数 。 完 成 此 测试 的 代码 如 下 : 


# test/lib/pos_tagger_spec.rb 


require 'spec_helper' 
require 'stringio' 


describe POSTagger do 
let(:stream) { "A/B C/D C/D A/D A/B ./." } 


let(:pos_tagger) { 
pos_tagger = POSTagger.new([StringI0.new(stream) ]) 
pos_tagger.train! 
pos_tagger 


} 


it ‘calculates tag transition probabilities' do 
pos_tagger.tag_probability("Z", "Z").must_equal 0 


# count(previous_tag, current_tag) / count(previous_tag) 
# D 与 0 发 生 了 2 次 ,D 发 生 了 3 次 ,因此 为 2/3 
pos_tagger.tag_probability("D", "D").must_equal Rational(2,3) 
pos_tagger.tag_probability("START", "B").must_equal 1 
pos_tagger.tag_probability("B", "D").must_equal Rational(1,2) 
pos_tagger.tag_probability(".", "D").must_equal 0 
end 
end 


前 面 我 们 曾 介绍 过 ， 序 列 始 于 一 个 隐 含 标签 START。 因 此 ， 可 以 看 出 ， 从 D 转移 到 
D 的 概率 为 203， 这 是 因为 从 D 到 D 共 出 现 2 次 ,而 D 在 该 序列 中 出 现 了 3 次 。 为 使 
POSTagger 类 能 够 工作 ， 我 们 需要 编写 下 列 代码 : 


# lib/pos_tagger.rb 


class POSTagger 
def initialize(data_io = []) 
@corpus_parser = CorpusParser.new 
@data_io = data_io 


@trained = false 
end 


def train! 
unless @trained 
@tags = Set.new(["START"]) 
@tag_combos = Hash.new(0) 
@tag_frequencies = Hash.new(0) 
@word_tag_combos = Hash.new(0) 


@data_io.each do |io| 
io.each_line do |line| 


@corpus_parser.parse(line) do |ngram| 


write(ngram) 
end 
end 
end 
@trained = true 
end 
end 


def write(ngram) 
if ngram.first.tag == 'START' 
@tag_frequencies['START'] += 1 
@word_tag_combos['START/START'] += 1 
end 


@tags << ngram.last.tag 


@tag_frequencies[ngram.last.tag] += 1 
@word_tag_combos[[ngram.last.word, ngram.last.tag].join("/")] += 1 
@tag_combos[[ngram.first.tag, ngram.last.tag].join("/")] += 1 

end 


# 最 大 似 然 估计 
# count(previous_tag, current_tag) / count(previous_tag) 
def tag_probability(previous_tag, current_tag) 

denom = @tag_frequencies[previous_tag] 


if denom. zero? 
0 
else 
@tag_combos["#{previous_tag}/#{current_tag}"] / denom.to_f 
end 
end 
end 


你 可 能 已 经 注意 到 ， 当 出 现 0 时 ， 我 们 做 了 一 点 错误 处 理 的 工作 ， 因 为 我 们 将 抛 出 一 个 
divide-by-zero 的 错误 。 接 下 来 ， 我 们 需要 解决 单词 标签 组 合 的 概率 计算 问题 ， 可 利用 下 
列 已 有 测试 代码 来 实现 : 


# test/lib/pos_tagger_spec.rb 


describe POSTagger do 
let(:stream) { "A/B C/D C/D A/D A/B ./." } 
# 最 大 似 然 估计 
# count (word and tag) / count(tag) 
it ‘calculates the probability of a word given a tag' do 
pos_tagger.word_tag_probability("Z", "Z").must_equal 0 


# A 与 8 发 生 了 两 次 ,b 发 生 了 两 次 ,因此 为 100% 
pos_tagger .word_tag_probability("A", "B").must equal 1 


# A 与 0 发 生 了 1 次 ,D 发 生 了 3 次 ,因此 为 1/3 
pos_tagger .word_tag_probability("A", "D").must_equal Rational(1,3) 
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# START 与 START 发 生 了 1 次 ,start 发 后 了 1 次 ,因此 为 1 
pos_tagger.word_tag_probability("START", "START").must_equal 1 


pos_tagger.word_tag_probability(".", ".").must_equal 1 
end 
end 


为 使 上 述 测 试 代码 能 够 在 POSTagger 类 中 工作 ， 我 们 还 需要 编写 如 下 代码 : 
# lib/pos_tagger.rb 


class POSTagger 
# initialize 
# train! 
# write 
# tag_probability 


# 最 大 似 然 估计 

# count (word and tag) / count(tag) 

def word_tag_probability(word, tag) 
denom = @tag_frequencies[tag] 


if denom.zero? 
0 
else 
@word_tag_combos["#{word}/#{tag}"] / denom.to_f 
end 
end 
end 


这 样 ， 我 们 就 得 到 了 所 期 望 的 word_tag_probability 和 tag_probabiLity。 于 是 ， 我 们 可 回 
答 以 下 问题 : 给 定 一 个 单词 和 标签 序列 ， 该 单词 取得 各 标签 的 概率 值 是 多 大 ? 即 给 定之 前 
单词 的 标签 时 当前 标签 的 概率 ， 乘 以 给 定 该 标签 时 该 单词 的 概率 。 完 成 该 功能 的 测试 代码 
如 下 : 


m- 


# test/lib/pos_tagger.rb 


describe POSTagger do 
it 'calculates probability of sequence of words and tags' do 
words = %w[START ACAA.] 
tags = %w[START B D D B .] 
tagger = pos_tagger 


tag_probabilities = [ 
tagger.tag_probability("B", "D"), 
tagger.tag_probability("D", "D"), 
tagger.tag_probability("D", "B"), 
tagger.tag_probability("B", ".") 
].reduce(&:*) 


word_probabilities = [ 


tagger.word_tag_probability("A", "B"), # 1 

tagger.word_tag_probability("C", "D"), 

tagger.word_tag_probability("A", "D"), 

tagger.word_tag_probability("A", "B"), #1 
].reduce(&:*) 


expected = word_probabilities * tag probabilities 
pos_tagger.probability_of_word_tag(words, tags).must_equal expected 


end 
end 


因此 ， 基 本 上 ， 我 们 所 计算 的 是 单词 标签 的 概率 乘 以 标签 转移 的 概率 。 利 用 下 列 代码 ， 我 
们 可 以 轻松 地 在 PosTagger 类 中 实现 该 功能 : 


# lib/pos_tagger.rb 


class POSTagger 
# initialize 
# train! 
# write 
# tag_probability 
# word_tag_probability 


def probability_of_word_tag(word_sequence, tag_sequence) 
if word_sequence. length != tag_sequence. length 
raise 'The word and tags must be the same length! ' 
end 
# word_sequence %w[START I want to race .] 
# Tag sequence %w[START PRO V TO V .] 


length = word_sequence. length 
probability = Rational(1,1) 


(1...length).each do |i| 
probability *= ( 
tag_probability(tag_sequence[i - 1], tag_sequence[i]) * 
word_tag_probability(word_sequence[i], tag_sequence[i]) 


) 


end 


probability 
end 
end 


至 此 ， 我 们 已 经 能 够 确定 一 个 给 定单 词 和 标签 序列 的 概率 。 但 如 果 当 给 定 一 个 句子 和 训 
练 数据 时 ， 我 们 还 能 够 确定 最 优 标签 序列 ， 就 再 好 不 过 了 。 为 此 ， 我 们 需要 编写 如 下 简 
单 测试 : 


# test/lib/pos_tagger_spec.rb 


describe POSTagger do 
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describe 'viterbi' do 
let(:training) { "I/PRO want/V to/TO race/V ./. I/PRO like/V cats/N ./." } 
let(:sentence) { 'I want to race.' } 
let(:pos_tagger) { 
pos_tagger = POSTagger .new([StringI0.new(training) ]) 
pos_tagger.train! 
pos_tagger 


} 


it 'will calculate the best viterbi sequence for I want to race' do 
pos_tagger.viterbi(sentence).must_equal %w[START PRO V TO V .] 
end 
end 
end 


实现 该 测试 的 工作 量 稍 多 一 点 ， 因 为 维特 比 算法 相对 比较 复杂 。 因 此 我 们 需要 按部就班 
地 进行 。 第 一 个 问题 是 ， 我 们 的 方法 需要 接收 字符 串 ， 而 非 单 词 序 列 。 我 们 需要 依据 空 
格 对 字符 串 进行 切割 ， 并 将 停止 字符 保留 。 为 此 ， 我 们 需要 编写 下 列 代码 来 为 维特 比 算 
法 做 准 


# lib/pos_tagger.rb 


class POSTagger 
# initialize 
# train! 
# write 
# tag_probability 
# word_tag_probability 


def viterbi(sentence) 
parts = sentence.gsub(/[\.\?!]/) {lal " #{a}" }.split(/\s+/) 
end 
end 


RELL re — Oe RAGE, ER ES EH AH RD LE OY BSR EAT RR 
因此 ， 我 们 需 Rea eo 并 保存 最 优 标 签 。 可 利用 下 列 方式 初始 化 并 确定 最 优 
标签 : 


Hr 


# lib/pos_tagger.rb 


class POSTagger 
# initialize 
# train! 
# write 
# tag_probability 
# word_tag_probability 


def viterbi(sentence) 
# parts 


last_viterbi = {} 


backpointers = ["START"] 


@tags.each do |tag| 
if tag == 'START' 
next 
else 
probability = ( 
tag_probability("START", tag) * 
word_tag_probability(parts.first, tag) 
) 


if probability > 0 
last_viterbi[tag] = probability 
end 
end 
end 


backpointers << ( 
Last_viterbi.max_by {|k,v| v} |] 
@tag_frequencies.max_by {|k,v| v} 
).first 
end 
end 


此 时 ，last_viterbi 仅 有 一 个 选择 ， 即 {"PRO"=>1.0}。 这 是 因为 从 START 转移 到 任何 其 
他 标签 的 概率 均 为 0。 同样 ，backpointers 中 将 包含 START 和 PRO。 因 此 ， 既 然 已 经 
立 好 初始 化 步 台 ， 我 们 只 需 对 其 余部 分 进行 迭代 即 可 : 


# lib/pos_tagger.rb 


class POSTagger 
# initialize 
# train! 
# write 
# tag_probability 
# word_tag_probability 


def viterbi(sentence) 


# parts 
# 初始 化 


parts[1..-1].each do |part| 
viterbi = {} 
@tags.each do |tag| 
next if tag == 'START' 
break if last_viterbi.empty? 


best_previous = Last_viterbi.max_by do |prev_tag, probability| 
( 
probability * 
tag_probability(prev_tag, tag) * 
word_tag_probability(part, tag) 
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) 


end 
best_tag = best_previous.first 


probability = ( 
last_viterbi[best_tag] * 
tag_probability(best_tag, tag) * 
word_tag_probability(part, tag) 
) 


if probability > 0 
viterbi[tag] = probability 
end 
end 


last_viterbi = viterbi 


backpointers << ( 
Last_viterbi.max_by{|k,v] v} || 
@tag_frequencies.max_by{|k,v| v } 
).first 
end 
backpointers 
end 
end 


这 里 我 们 所 做 的 是 仅 保存 相关 信息 。 如 果 出 现 Last_viterbi 为 空 的 情况 ， 我 们 会 转 而 使 用 
etag_frequencies。 仅 当 修剪 过 度 时 才 会 出 现 这 种 情形 。 但 这 种 方法 要 比 在 内 存 中 保存 所 
有 信息 高 效 得 多 。 


至 此 ， 所 有 的 工作 都 完成 了 ! 但 我 们 应 如 何 对 其 性 能 进行 评估 呢 ? 


5.5.3 通过 交叉 验证 获取 模型 的 置信 度 

在 这 个 阶段 ， 编 写 一 个 交叉 验证 测试 是 明智 之 举 。 虽 然 我 们 使 用 的 是 一 个 非常 朴素 的 模 
型 ， 但 还 是 希望 其 准确 率 至 少 能 够 达到 20%。 我 们 将 之 写 入 一 个 10 份 交叉 验证 规约 中 。 
我 们 并 不 要 求 该 模型 处 于 一 定 的 置信 范围 内 ， 而 只 是 将 错误 率 呈 现 给 用 户 。 当 我 在 自己 的 
机 器 中 运行 该 测试 时 ， 得 到 的 错误 率 约 为 30%。 我 们 还 将 讨论 如 何 改进 ， 但 对 于 我 们 的 目 
标 而 言 ， 鉴 于 仅 考 察 两 个 概率 值 ， 这 已 经 足够 好 了 ;， 


# test/cross_validation_spec.rb 
require 'spec_helper' 


describe "Cross Validation" do 
let(:files) { Dir['./data/brown/c***'] } 


FOLDS = 10 


FOLDS.times do |i] 
let(:validation_indexes) do 
splits = files.length / FOLDS 
(Ci * splits)..((i + 1) * splits)).to_a 
end 


let(:training_indexes) do 
files. length.times.to_a - validation_indexes 
end 


let(:validation_files) do 
files.select.with_index {|f, i| validation_indexes.include?(i) } 
end 


let(:training_files) do 
files.select.with_index {|f, i| training_indexes.include?(i) } 
end 


it "cross validates with a low error for fold #{i}" do 
pos_tagger = POSTagger.from_filepaths(training_files, true) 
misses = 0 
successes = 0 


validation_files.each do |vf| 
File.open(vf, 'rb').each_line do |1| 
if l =~ /\A\s+\z/ 
next 
else 
words = [] 
parts_of_speech = ['START'] 
L.strip.split(/\s+/).each do |ppp| 
z = ppp.split('/') 
words << z.first 
parts_of_speech << z.last 
end 


tag_seq = pos_tagger.viterbi(words.join(' ')) 
misses += tag_seq.zip(parts_of_speech).count {|k,v| k != v} 
successes += tag_seq.zip(parts_of_speech).count {|k,v| k == v } 
end 
end 
puts Rational(misses, successes + misses).to_f 
end 
skip("Error rate was #{misses / (successes + misses).to_f}") 
end 
end 
end 


由 此 产生 的 错误 率 约 为 20%~30%。 实 事 求 是 地 说 ， 这 不 精确 。 导 致 这 种 结果 的 部 分 原因 
在 于 ， 布 朗 语料库 对 标签 的 类 别 进行 了 细 分 ， 因 此 如 果 你 不 在 意 词性 的 细微 差异 〈 如 物 主 
代词 和 常规 代词 )， 错 误 率 会 低 得 多 。 
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5.5.4 ”模型 的 改进 方案 

正如 我 们 所 有 的 程序 示例 一 样 ， 改 进 该 模型 的 最 佳 方式 是 首先 确定 其 性 能 ， 并 进行 迭代 。 
提升 该 模型 性 能 的 一 种 快捷 方式 是 每 次 查看 多 个 单词 。 因 此 ， 需 要 求 取 给 定之 前 两 个 标签 
而 非 之 前 的 一 个 标签 时 ， 某 个 标签 的 概率 。 可 通过 修改 语料库 的 标注 器 来 达到 这 个 目的 。 


但 我 要 说 ， 本 例 的 确 已 经 能 够 很 好 地 工作 ， 而 且 非 常 易于 实现 | 


5.6 ”小结 


在 需要 依据 一 些 观测 数据 确定 隐 含 数据 时 ， 隐 马尔 可 夫 模型 是 最 有 趣 的 候选 模型 之 一 。 例 
如 ， 你 可 确定 某 位 用 户 的 真实 状态 、 找 到 某 个 单词 的 隐 仿 标签， 甚至 是 跟随 乐谱 。 


通过 本 章 的 学 习 ， 你 了 解 了 如 何 将 状态 机 推广 为 马尔 可 夫 链 ， 它 可 用 于 对 系统 行为 持续 进 
行 建 模 。 我 们 还 增加 了 一 个 隐藏 单元 以 确定 当 给 定 一 些 容易 被 观测 的 输出 时 ， 模 型 的 隐 含 
状态 。 你 还 了 解 了 使 用 隐 马 尔 可 夫 模 型 的 三 个 阶段 分 别 为 评估 、 解 码 和 学 习 ， 以 及 如 何 对 
这 些 问 题 进行 求解 。 最 后 ， 我 们 利用 布朗 语料库 和 维特 比 算法 搭建 了 一 个 词性 标注 器 。 


第 6 章 


支持 向 量 机 


到 底 是 什么 决定 用 户 的 忠诚 度 ? 在 商业 上 ， 忠 诚 度 通常 与 经 常 光 顾 并 消费 有 关 。 但 如 何 度 
量 忠诚 和 不 忠诚 的 决定 因素 呢 ? 


本 章 中 ， 我 们 将 利用 支持 向 量 机 从 理论 上 求解 该 问题 。 该 算法 利用 许多 特征 对 象 来 生成 两 
PAG 〈 如 忠诚 与 不 忠诚 ) 之 间 的 决策 面 。 本 章 的 最 后 ， 我 们 将 通过 一 个 实际 案例 介绍 如 
何 分 析 电 影评 论 所 体现 的 情绪 。 


6.1 求解 忠诚 度 映 射 问题 


在 线 商 店 拥有 两 类 顾客 : 忠诚 的 顾客 和 不 忠诚 的 顾客 。 忠 诚 的 顾客 会 不 断 地 回头 购买 某 个 
品牌 的 商品 ， 而 不 忠诚 的 顾客 要 么 只 得 不 买 ， 要 么 不 关心 品牌 消费 无 度 。 我 们 的 目标 是 
就 订单 数量 和 平均 订单 金额 ， 确 定 到 底 是 什么 使 得 顾客 忠诚 或 不 忠诚 。 


设想 我 们 的 数据 分 布 如 图 6-1 所 示 。 


89 


消费 无 度 


6-1: 忠诚 顾客 和 不 忠诚 顾客 之 间 存在 明确 的 界限 


由 于 是 首次 接触 这 类 问题 ， 我 们 有 多 种 方式 来 判定 用 户 是 否 忠诚 。 我 们 可 利用 天 近邻 分 类 
程序 (参见 第 3 章 )， 这 种 方法 实际 上 是 将 数据 围绕 一 个 中 心 形成 了 一 个 徐 (参见 图 6-2). 


不 忠诚 
的 顾客 


忠诚 的 
顾客 


图 6-2: 利用 聚 类 ， 可 构建 一 个 如 图 所 示 的 分 类 结果 


但 这 并 不 是 我 们 想 要 的 结果 。 我 们 不 想 了 解 平 均 意义 上 的 忠诚 用 户 和 不 忠诚 用 户 具 有 什么 
特点 ， 而 是 希望 找到 这 两 个 类 别 之 间 的 决策 面 。 所 谓 决策 面 是 一 条 介 于 两 类 数据 之 间 的 直 
线 。 不 幸 的 是 ， 这 个 过 程 并 不 像 听 起 来 那样 简单 ， 因 为 我 们 可 以 画 出 无 数 条 决策 面 。 


幸运 的 是 ， 有 一 个 算法 可 帮助 我 们 求解 该 问题 一 一 支持 向 量 机 (Support Vector Machine, 
SVM). SVM 最 早 由 Vladimir Vapnik 于 20 世纪 80 年 代 提 出 ， 被 作为 一 种 数据 分 类 方法 。 
该 方法 的 现代 解释 Chttp://link.springer.com/article/10.1007%2FBF00994018) 在 1995 年 被 
提出 ， 在 严格 性 上 与 提出 时 相 比 有 所 放松 。 最 初 提 出 SVM 是 为 了 帮助 求解 两 类 分 类 问题 。 


这 些 类 型 的 问题 可 以 是 布尔 型 


( 真 


Eo 


假 )、ids (3,4) 或 正 负 (1-1)。SVM 的 特别 之 处 在 


于 ， 它 在 高 维 空间 中 也 有 很 好 的 表现 ， 可 避免 维 数 灾难 。 此 外 ， 其 计算 效率 也 较 高 。 


该 算法 并 不 是 从 两 个 数据 集合 之 间 任 意 选 择 一 条 直线 ， 而 是 要 使 它们 之 间 的 距离 最 大 化 
(参见 图 6-3)。 例 如 ， 在 我 们 的 忠诚 顾客 与 不 忠诚 顾客 问题 中 ， 我 们 可 得 到 这 两 个 类 别 之 
间 的 最 优 决策 面 。 确 定 了 决策 面 的 位 置 之 后 ， 便 可 回答 是 什么 使 得 顾客 忠诚 或 不 忠诚 。 


@ 
(2) 
全 不 忠诚 
的 顾客 
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6-3: 利用 SVM， 可 利用 间隔 将 两 组 数据 分 离 


6.2 SVM 的 推导 过 程 
从 概念 上 看 ， 我 们 理解 SVM 使 两 个 集合 之 间 的 距离 最 大 化 ， 但 它 是 如 何 做 到 这 一 点 的 呢 ? 


我 们 的 目标 是 求解 方程 we-b=0 (参见 图 6-4) 中 的 w。 该 方程 可 重新 表示 为 b = DO" wa, 
FEP x 为 数据 的 第 ;维特 征 ， 而 w 待定 。 这 些 方程 在 维 空间 中 定义 了 一 个 超 平面 。 起 平 
面 (hyperplane) 即 维 直线 。 最 重要 的 是 应 意识 到 ， 我 们 是 在 两 个 集合 之 间 确 定 一 个 超 
平面 ， 并 确定 最 远 的 数据 点 之 间 的 距离 。 


© © wx—b=—1 


图 6-4: wx-b=0 定义 了 将 两 类 数据 分 离 的 超 平面 


但 这 只 是 两 类 数据 之 间 的 一 个 任意 空间 。 我 们 希望 找到 能 够 将 两 个 集合 最 大 化 分 离 的 空 
间 。 为 此 ， 我 们 需要 定义 两 个 分 别 位 于 已 知 超 平面 上 方 和 下 方 的 超 平面 。 在 本 例 中 ， 我 们 
可 将 位 于 上 方 的 超 平面 定义 为 wx+b=1， 而 将 下 方 的 超 平面 定义 为 wx+b=-1。 此 时 ， 我 们 
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对 实际 数据 尚 一 无 所 知 ， 但 在 已 知 直线 上 方 和 下 方 各 有 一 个 间隔 。 


既然 定义 了 三 个 超 平面 ， 我 们 希望 将 上 方 超 平面 和 下 方 超 平面 的 间隔 最 大 化 。 我 们 采用 几 
何方 法 进行 推导 。 现 有 两 条 平行 线 ， 我 们 需要 求 出 二 者 的 距离 。 唯 一 的 方法 是 找到 一 个 沿 
着 与 所 有 超 平面 垂直 的 方向 移动 的 超 平面 。 在 本 例 中 ， 上 方 超 平 面 与 下 方 超 平面 之 间 的 重 
直线 段 的 长 度 从 为 [| 。 我 们 的 初始 目标 是 将 间隔 (两 超 平面 之 间 的 欧 氏 距离 ) 最 大 化 ， 


|w 


lai 


但 我 们 可 将 其 简化 为 最 小 化 | w |. 


该 方法 具有 许多 优点 ， 其 中 之 一 是 |w| = Vww (意味 着 这 是 一 个 凸 函 数 ) 。 借 助 许多 已 
有 算法 ， 可 对 凸 函数 快速 求解 。 然 而 ， 我 们 还 有 一 个 更 好 的 选择 一 一 将 目标 函数 重新 定义 
为 相 | w 下 ， 这 个 新 的 优化 问题 被 称 为 二 次 规划 (quadratic program)。 利 用 Karush-Kuhn- 
Tucker 条 件 ， 我 们 可 轻松 地 求解 这 个 问题 。 


现在 我 们 已 经 掌握 了 一 种 将 两 个 数据 集 的 间隔 最 大 化 的 方法 。 现 在 问题 成 为 了 一 个 简单 的 
二 次 规划 问题 ， 而 且 可 快速 求解 。 但 还 有 一 个 问题 有 待 解决 一 一 当 数据 不 是 线性 可 分 时 。 


6.3 非 线 性 数据 

你 可 能 已 经 注意 到 ， 在 之 前 的 所 有 例子 中 ， 数 据 都 是 线性 可 分 的 。 然 而 ， 大 多 数 数据 都 不 
是 线性 的 ， 而 且 维 数 较 高 。 我 们 希望 能 够 将 其 变换 到 更 加 稳健 和 非 线性 的 空间 中 。 可 利用 
核 技巧 借助 SVM 来 实现 这 种 变换 。 这 实际 上 是 将 线性 模型 转换 为 非 线性 ， 并 解决 许多 与 
非 线 性 数据 相关 的 问题 。 


6.3.1 核 技巧 
假设 给 定 某 一 线性 不 可 分 数据 集 (如 图 6-5 所 示 )。 
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6-5: 位 于 一 个 圆 内 的 圆 无 法 通过 直线 进行 分 离 


你 注意 到 我 们 无 法 通过 一 条 直线 将 这 两 组 数据 分 离 。 为 将 二 者 分 离 ， 我 们 只 能 借助 非 线性 
决策 面 ， 如 圆 形 。 利 用 任意 类 型 的 线性 决策 面 ， 我 们 都 无 法 将 这 两 个 类 别 的 数据 划分 为 两 
个 圆 形 。 幸 运 的 是 ， 我 们 可 使 用 一 种 技巧 来 克服 这 个 难点 ! 核 技巧 只 是 将 数据 由 一 种 类 
型 变换 为 另 一 种 类 型 。 例 如 ， 我 们 不 在 二 维 空间 中 观察 这 个 圆 形 ， 而 是 将 <x, y> 变换 到 
o VZ ay y>， 情 况 会 怎样 ? 变换 后 的 数据 集 如 图 6-6 所 示 。 
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et+y=l 
z=0.5-x 


x +y=0.5 


图 6-6: 用 不 同 的 方式 查看 同一 组 数据 

这 便 是 核 技巧 的 梗概 。 大 体 上 说 ， 它 接收 一 种 维度 的 数据 ， 然 后 将 其 变换 到 更 高 维 的 空间 
中 ， 这 样 我 们 便 可 利用 直线 将 它们 分 离 。 在 上 面 这 个 例子 中 ， 我 们 使 用 的 核 函数 称 为 多 项 
式 核 。 

从 数学 上 看 ， 核 技巧 接收 一 个 线性 的 x， 然 后 将 其 转换 为 (x) 或 某 个 更 适合 该 数据 集 的 x 
的 函数 。 然 而 ， 在 利用 核 技 巧 时 ， 需 要 考虑 以 下 几 点 。 


。 $09) 会 被 多 次 计算 ,这 可 能 会 花费 大 量 时 间 。 
。 6 本 身 可 能 就 是 一 个 难于 计算 的 复杂 函数 。 
。 如 果 训 练 数据 的 规模 很 大 ， 则 通常 利用 核 技巧 会 大 大 增加 计算 开销 。 


因此 ， 我 们 并 不 是 将 所 有 的 x 都 变换 为 B(x)， 而 是 尝试 一 些 不 同 的 计算 ， 如 
kax) = (i) * 9 (x)) 。 我 们 并 不 只 是 将 原 数 据点 x 变换 为 新 函数 ， 我 们 映射 的 是 9 Ox) AY 
内 积 。 

我 们 还 需要 一 个 易于 计算 的 量 。 好 消息 是 这 样 的 量 的 确 存 在 ! 它 被 称 为 核 函 数 。 这 种 类 型 
的 函数 已 经 隐 含 计算 了 内 积 ， 因 此 它 避 免 了 计算 内 积 这 个 步 又， 因此 对 计算 效率 而 言 是 一 
种 优化 。 

下 列 核 函 数 都 拥有 K(x,y) = <b (x), b (9)> 这 样 的 优良 性 质 : 


。 齐 次 多 项 式 
。 非 齐 次 多 项 式 
。 IRPH AZ 


1. 齐 次 多 项 式 
最 简单 的 核 函 数 是 齐 次 多 项 式 : 


K(xi,x) = (Xi x)" 


KP, d 为 多 项 式 的 阶 数 ， 它 可 取 任 意 大 于 0 的 整数 。 由 于 该 函数 计算 开销 低 ， 且 易于 计 
算 ， 故 在 手写 体检 测 中 得 到 了 广泛 应 用 。 


多 项 式 核 之 所 以 有 用 ， 是 因为 它 利 用 了 相似 性 以 及 数据 的 组 合 。 以 二 阶 多 项 式 核 为 例 : 
n n n i—l 
K(x,y) = > aa) = Xy + YY V2 xy: V2 xix; 
i=l i=l 


i=2 j=1 


虽然 这 看 起 来 有 些 复杂 ,但 其 实 强 含 了 一 些 很 有 趣 的 内 容 。 其 中 不 但 有 我 们 可 以 预期 的 
交互 项 zy， 而 且 还 有 组 合 项 wy * xjy;。 当 某 些 维度 应 当 被 划分 为 一 组 时 ， 这 是 极为 有 
用 的 。 

请 注意 图 6-6 展示 的 是 一 个 齐 次 多 项 式 ， 它 的 阶 数 为 2， 这 个 阶 数 在 大 多 数 情况 下 都 具有 
优异 的 表现 。 

2. 非 齐 次 多 项 式 

韭 齐 次 多 项 式 与 齐 次 多 项 式 非 党 类似， 区 别 仅 在 于 它 引 入 了 一 个 非 负 常量 ce (严格 大 于 0)。 


非 齐 次 多 项 式 的 一 般 形式 如 下 : 


K (xi, xj) = (xi x; + c)? 


这 里 增加 的 常量 c 提升 了 高 阶 而 非 低 阶 特征 的 相关 性 。 
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3. 径 向 基 函 数 
较 之 上 述 两 个 多 项 式 核 国 数 ， 径 向 基 国 数 (Radial Basis Function, RBF) 的 使 用 频率 往往 
更 高 ， 这 要 归功 于 它 在 高 维 空间 中 的 优秀 表现 。 径 向 基 国 数 的 一 般 形 式 为 : 


2 
K (xi, Xj) = exp{ snk 


该 式 的 分 子 为 两 点 欧 氏 距离 的 平方 ， 而 o 是 一 个 自由 参数 。 


不 季 的 是 ， 我 们 缺乏 将 径 向 基 图 数 可 视 化 的 有 效 途 径 。 这 里 要 注意 的 是 ， 径 向 基 核 国 数 实 
际 上 创建 了 一 个 无 穷 维 空间 ， 而 齐 次 多 项 式 仅 将 原始 空间 的 维 数 增加 了 一 维 。 这 实际 上 是 
RBF 的 一 个 突出 特性 ， 因 为 在 使 用 它 时 ， 你 已 经 克服 了 与 维 数 灾难 有 关 的 问题 。 


4. 核 函数 的 选择 

选择 使 用 非 齐 次 多 项 式 还 是 RBF， 这 是 很 复杂 的 。 很 多 时 候 ，SVM 库 都 会 将 RBF 作为 
默认 的 核 函 数 。 但 这 并 不 能 作为 使 用 某 种 核 函数 的 理由 。 一 篇 文章 (http://cbio.ensmp. 
fr/~jvert/svn/bibli/local/Smolal998connection.pdf) 指出 ， 这 些 核 函数 可 对 数据 归 一 化 ， 大 体 
上 相当 于 施加 了 一 个 低 通 滤 波 器 。 


从 概念 上 看 ， 二 阶 多 项 式 核 会 将 二 维 数据 点 变换 至 三 维 空间 ， 并 试图 拟 合 出 一 个 最 平坦 的 
fl, BZ RBF 和 多 项 式 核 时 常 看 起 来 很 有 必要 使 用 ， 然 而 它们 实际 上 比较 容易 对 数据 产生 
过 拟 合 ， 因 此 请 谨慎 使 用 。 


6.3.2 ” 软 间隔 
到 目前 为 止 ， 我 们 所 讨论 的 内 容 都 面临 着 一 个 挑战 ， 即 数据 集 需要 完全 线性 可 分 。 设 想 这 
样 一 种 情况 : 我 们 的 客户 只 是 表面 上 看 起 来 忠诚 ， 但 其 实 并 非 真 的 忠诚 (如 图 6-7 所 示 )。 


© © 


图 6-7: 出 现 误 差 时 的 情形 ， 说 明了 松弛 变量 的 重要 性 
在 该 图 中 ， 我 们 的 不 忠诚 客户 位 于 忠诚 阵营 。 该 数据 集 仍 然 是 线性 可 分 的 ， 但 存在 少量 分 
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类 错误 。 我 们 并 不 试图 寻找 完美 的 核 函数 ， 而 是 应 将 这 些 错误 忽略 。 在 Vladimir Vapnik 当 
年 提出 SVM 时 ， 虽 然 所 做 的 假设 是 数据 要 么 直接 线性 可 分 ， 要 么 用 某 个 核 国 数 变换 后 线 
性 可 分 。 但 在 大 多 数 情 况 下 ， 数 据 都 没有 这 样 完美 ， 因 此 需要 采取 一 些 手段 来 进行 优化 : 
。 用 松弛 变量 优化 
。 引入 一 个 新 参数 C 
1. 用 松弛 变量 优化 
在 我 们 之 前 的 例子 中 ， 数 据 都 是 线性 可 分 的 ， 但 如 果 数 据 集 不 具有 线性 可 分 性 ， 则 之 前 的 
优化 策略 将 失效 。 好 在 ， 对 于 这 样 的 数据 ， 有 一 种 优雅 的 优化 策略 一 一 引入 一 个 松弛 变量 


(slack variable) 。 


我 们 不 再 单纯 地 优化 | 0 PTR SLA ALAR CORRE TOUR. BORE RAIA SKB 
上 对 应 间隔 误差 (marginal error) 。 我 们 也 希望 将 间隔 误差 最 小 化 ， 因 此 可 将 其 作为 惩罚 项 
添加 到 之 前 的 优化 问题 中 ， 即 | w+ 半生 。 实 际 上 ， 我 们 是 将 误差 参数 添加 到 之 前 的 
最 小 化 问题 中 。 

2. 利用 C 权 衡 松弛 变量 最 小 化 与 间隔 最 大 化 

在 之 前 的 最 小 化 问题 中 ， 你 可 能 注意 到 ， 我 们 赋予 间隔 最 大 化 Elw) 的 权重 与 松弛 


变量 之 和 (或 间隔 误差 ) 的 权重 是 等 同 的 。 我 们 知道 ， 在 机 器 学 习 问 题 中 处 处 需要 作出 权 
衡 ， 因 此 该 方法 是 否 有 效 存在 一 些 不 确定 性 。Vapnik 所 采取 的 策略 是 引入 一 个 对 松弛 变量 
进行 加 权 的 复杂 性 参数 。 该 参数 由 用 户 定义 ， 对 松弛 变量 而 非 原始 的 间隔 最 大 化 问题 进行 
加 权 。 


现在 ,我 们 的 最 小 化 函数 就 变 为 : 


lw + cDé 
i=1 


实践 中 ， 这 个 复杂 性 参数 需要 取 为 正 实数 ， 通 常 可 借助 交叉 验证 来 确定 。 在 下 一 节 中 ， 我 
们 将 通过 一 个 利用 SVM 进行 情绪 分 析 的 案例 ， 次 入 探讨 如 何 找到 合适 的 复杂 性 参数 。 


thh Z — 
6.4 利用 SVM 进行 情绪 分 析 
假设 你 需要 对 一 系列 单词 进行 情绪 分 析 。 如 何 实 现 ? 语言 中 有 很 多 语 境 线索 、 幽 默 讽 刺 以 
RARE., FAR “Lets get stupid” 这 样 的 句子 ， 其 情绪 就 颇 为 模糊 ， 因 为 它 既 可 表达 正 
面 情 绪 ， 也 可 表达 负面 情绪 。 
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在 本 市 中 ， 我 们 将 搭建 一 个 用 于 确定 电影 评论 中 的 情绪 的 分 析 系 统 。 下 面 首先 以 类 图 的 形 
式 讨论 这 个 工 所 应 具备 的 特点 。 在 确定 该 工具 的 构成 之 后 ， 我 们 将 构建 一 个 Corpus 类 、 一 
个 CorpusSet 类 以 及 SentimentClassifier 类 。 其 中 ，Corpus 类 和 CorpusSet 类 将 文本 转化 
为 数值 型 信息 。 在 SentimentClassifier 中 ， 我 们 将 利用 SVM 算法 构建 情绪 分 析 器 。 


安装 说 明 
本 例 中 使 用 的 所 有 代码 均 可 从 GitHub 获取 (https://github.com/thoughtfulml/ 


examples/tree/master/5-support-vector-machines ) 。 


由 于 Ruby 处 于 持续 的 发 展 和 更 新 中 ， 因 此 README 是 了 解 如 何 运 行 这 些 示 
例 的 最 佳 参考 资料 。 


用 Ruby 来 运行 本 例 ， 不 需要 其 他 任何 依赖 库 。 


6.4.1 类 图 

我 们 的 工具 将 接受 一 组 包含 正面 或 负面 情绪 的 训练 单词 和 句子 。 利 用 这 些 句 子 ， 我 们 可 构 
建 一 个 信息 语料库 。 在 Corpus 类 中 ， 我 们 有 偏向 正面 情绪 的 文本 ， 或 偏向 负面 情绪 的 文 
本 ,这些 文本 用 停顿 符号 分 隔 ， 如 “!”“?” 或 “.”。 一旦 构建 起 负面 情绪 或 正面 情绪 文本 
语料库 ， 我 们 便 需要 将 其 整合 到 一 个 CorpusSet 类 中 。 基 本 做 法 是 将 两 个 或 更 多 CorpusSet 
对 象 存放 到 一 个 对 象 中 。 


从 此 ，CorpusSet 类 将 由 SentimentClassifier 类 所 使 用 ， 以 在 将 来 进行 情感 分 析 。 图 6-8 
展示 了 本 案例 所 对 应 的 类 图 。 


带 有 正面 情绪 的 文本 | | 带 有 负面 情绪 的 文本 


What a great movie... That was terrible... 


SentimentAnalyzer 


图 6-8: 关于 如 何 用 SVM 分 析 情 感 的 一 般 性 类 图 
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corpus 和 corpora 的 含义 
corpus 与 corpse 类 似 ， 孝 表示 由 大 量 东 西 构成 的 集合 ， 但 在 本 例 中 ， 它 表示 由 大 量 文 
字 构 成 的 集合 。 这 个 词 在 自然 语言 处 理 领域 被 广泛 使 用 ， 衣 示人 们 以 前 撰写 的 、 可 用 
于 知识 推理 的 大 量 文字 。 在 本 例 中 ,我 们 用 corpus 表示 由 带 有 某 种 情绪 的 大 量 文本 所 
构成 的 集合 。 
corpora 仅 为 corpus 的 复数 形式 。 


6.4.2 CorpusZz& 
我 们 的 Corpus 类 将 包含 下 列 功能 : 


。 符号 化 文本 
。 情绪 倾向 ， 即 某 段 文字 是 :negative， 还 是 :positive 
。 将 情绪 倾向 映射 为 一 个 实 值 

。 从 语料库 中 返回 一 个 无 重复 元 素 的 单词 集 


1. 文本 的 符号 化 

通过 第 4 章 我 们 了 解 到 ， 符 号 化 文本 有 多 种 方式 ， 如 词 干 、 字 母 频率 、 表 情 符号 和 单词 的 
提取 (参见 图 6-9)。 在 这 里 ， 我 们 仅 将 单词 符号 化 。 它 们 被 定义 为 非 字 母 字 符 之 间 的 字符 
串 。 因 此 ， 从 像 “The quick brown fox.” 这 样 的 句子 中 ， 我 们 可 提取 出 the, quick, brown, 
fox。 我 们 并 不 关心 标点 符号 ， 并 且 和 希望 将 Unicode 编码 的 空格 和 非 单词 字符 忽略 。 


字母 出 现 
的 次 


ao 


WT 


The quick brown fox 


SegctraensaAyTaaeAa: 
机 


6-9: 有 多 种 方式 可 将 句子 和 文本 符号 化 
符号 化 功能 的 测试 程序 如 下 所 示 : 
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# test/lib/corpus_spec.rb 


require 'spec_helper' 
require 'stringio' 


describe Corpus do 
describe "tokenize" do 
it "downcases all the word tokens" do 
Corpus.tokenize("Quick Brown Fox").must_equal %w[quick brown fox] 
end 


it "ignores all stop symbols" do 
Corpus.tokenize("\"'hello!?!?!.'\" ").must_equal %w[hello] 
end 


it "ignores the unicode space" do 
Corpus. tokenize("hello\uO0A0bob").must_equal %w[hello bob] 
end 
end 
end 


至 此 ， 我 们 便 可 构建 类 方法 : :tokenize 来 实际 处 理 我 们 的 测试 用 例 : 


# lib/corpus.rb 


class Corpus 
def self.tokenize(string) 
string.downcase.gsub(/['"\.\?\!]/, '').split(/[[:space:]]/) 
end 
end 


我 们 使 用 了 [[:space]]， 它 在 Ruby 中 表示 我 们 将 按照 Unicode 和 非 Unicode 
编码 的 空格 进行 单词 切割 。 


虽然 你 可 以 投入 大 量 时 间 来 优化 这 个 符号 化 步骤 ， 但 对 本 例 而 言 ， 效 果 已 经 足够 好 了 。 在 
机 器 学 习 中 ， 获 取 更 多 的 数据 通常 要 胜 过 对 若干 小 的 细节 进行 优化 。 


2. 情绪 倾向 : :positive 还 是 :negative 

对 于 每 个 Corpus， 我 们 需要 为 之 依附 一 个 情绪 倾向 ， 即 偏向 正面 还 是 偏向 负面 。 在 大 多 数 
情形 中 ， 我 们 可 选择 一 个 任意 实数 ， 如 -1 或 +1。 但 鉴于 其 任意 性 ， 我 们 应 当 使 用 一 些 特 
定 的 符号 。 在 这 里 ， 我 们 拟 采 用 符号 :positive 和 :negative。 


由 于 我 们 只 关心 符号 与 语料库 的 情绪 标注 信息 是 否 一 致 ， 因 此 可 进行 下 列 测试 : 


# test/lib/corpus_spec.rb 


describe Corpus do 


let(:positive) { StringIO.new('loved movie!! loved') } 
let(:positive_corpus) { Corpus.new(positive, :positive) } 


it 'consumes a positive training set' do 
positive_corpus.sentiment.must_equal :positive 
end 
end 


为 使 该 类 正常 工作 ， 我 们 需要 构建 一 个 可 接收 File 和 sentiment 并 为 :sentiment 生成 


attr_reader 的 骨架 类 ; 


# lib/corpus.rb 


class Corpus 


# 符号 化 


attr_reader :sentiment 
def initialize(file, sentiment) 


@file = file 
@sentiment = sentiment 
end 
end 


这 是 一 种 非常 简单 的 方法 。 请 注意 ， 我 们 还 为 Corpus 类 引入 了 一 个 file 参数 ， 它 指向 我 
们 的 训练 文件 。 


3. 情绪 代码 

你 可 能 已 经 看 出 ， fA ee 你 可 将 任何 内 容 作为 情绪 传人 ， 且 它 设 
pavers E 论 是 -1 还 是 1) 。 如 果 我 们 希望 使 用 SVM 算法 ， 则 这 
样 是 没有 任何 用 处 的 。 况 进 行 测 试 : 


# test/lib/corpus_spec.rb 


describe Corpus do 
it 'defines a sentiment_code of 1 for positive' do 
Corpus.new(StringIO.new(''), :positive).sentiment_code.must_equal 1 
end 


it 'defines a sentiment_code of 1 for positive' do 
Corpus.new(StringIO.new(''), :negative).sentiment_code.must_equal -1 
end 
end 


在 训练 SVM 时 ， 我 们 将 使 用 这 种 简化 版 的 映射 方法 。 为 此 ， 我 们 可 编写 下 列 代码 : 


# lib/corpus.rb 
class Corpus 

# 初始 化 

# 符号 化 


支持 向 量 机 | 101 


attr_reader :sentiment 


def sentiment_code 
{ 
:positive => 1, 
:negative => -1 
}.fetch(@sentiment) 
end 
end 


6.4.3 ”从 语料库 返回 一 个 无 重复 元 素 的 单词 集 
现在 只 剩 最 后 一 步 ， 即 从 训练 文件 中 返回 一 个 无 重复 元 素 的 单词 集合 。 这 一 步 的 目标 是 将 
位 于 语料库 中 的 单词 返回 ， 以 便 它 们 能 够 被 压缩 到 CorpusSet 类 中 。 由 于 在 大 多 数 情况 下 ， 
我 们 都 假定 文件 是 按 字 符 串 读 入 的 ， 因 此 我 们 可 将 Stringi 对 象 视 为 文件 ， 由 此 减少 了 写 
入 临时 文件 的 需求 : 


# test/lib/corpus_spec.rb 


describe Corpus do 
let(:positive) { StringIO.new('loved movie!! loved') } 
let(:positive_corpus) { Corpus.new(positive, :positive) } 


it ‘consumes a positive training set and unique set of words' do 
positive_corpus.words.must_equal Set.new(%w[ loved movie]) 
end 
end 


至 此 ， 我 们 需要 在 Corpus 上 实现 #words 方法 。 该 方法 应 返回 被 传 入 的 单词 集合 。 其 具体 
实现 如 下 : 


# lib/corpus.rb 


class Corpus 
# 初始 化 
# 符号 化 
# sentiment_code 


attr_reader :sentiment 


def words 
@words ||= begin 
set = Set.new 
@io.each_line do |line| 
Corpus.tokenize(line).each do |word| 
set << word 
end 
end 
@io. rewind 
set 


end 
end 
end 


既然 我 们 已 经 实现 了 符号 化 ， 并 将 所 有 单词 存 入 一 个 无 重复 元 素 的 集合 ， 现 在 可 只 关注 我 
们 的 工具 的 接口 ，CorpusSet 类 。 


6.4.4 ”CorpusSet 类 


现在 ， 我 们 需要 定义 CorpusSet 类 。 该 类 可 接收 多 个 Corpus 对 象 ， 将 它们 压缩 到 一 个 单词 
集合 中 ， 并 为 将 要 使 用 的 SentimentClassifier 对 象 构建 一 个 向 量 。 这 正 是 数据 和 支持 向 
量 机 之 间 的 接口 部 分 。 我 们 再 次 强调 ，CorpusSet 类 将 负责 以 下 任务 : 


(1) 将 两 个 Corpus 对 象 整合 到 一 起 ; 
(2) 构建 一 个 关于 两 个 语料库 的 稀 政 向 量 。 


1. 整合 两 个 语料库 对 象 
我 们 的 第 一 个 测试 将 接受 两 个 Corpus 对 象 ， 并 将 它们 整合 到 一 个 Corpusset 类 中 。 上 有 具体 代 
码 如 下 所 示 : 


# test/lib/corpus_set_spec.rb 
require 'spec_helper' 


describe CorpusSet do 
let(:positive) { StringIO.new('I love this country') } 
let(:negative) { StringIO.new('I hate this man') } 


let(:positive_corp) { Corpus.new(positive, :positive) } 
let(:negative_corp) { Corpus.new(negative, :negative) } 


let(:corpus_set) { CorpusSet.new([positive_corp, negative_corp]) } 


it 'composes two corpuses together' do 
corpus_set.words.must_equal %w[love country hate man] 
end 
end 


该 测试 接受 两 个 不 同 的 Corpus 对 象 ， 并 将 其 混合 到 一 个 单词 集中 。CorpusSet 类 的 具体 实 
现 如 下 : 


# lib/corpus_set.rb 


class CorpusSet 
attr_reader :words 


def initialize(corpora) 
@corpora = corpora 


@words = corpora.reduce(Set.new) do |set, corpus] 
set.merge(corpus.words) 
end.to_a 
end 
end 


这 是 一 种 非常 简单 的 思路 ， 即 将 多 个 集合 合并 到 一 个 较 大 的 集合 中 。 但 现在 我 们 需要 定义 
与 SentimentClassifier 相关 的 接口 。 


2. Æ 5 SentimentClassif ierti * MMR) E 

至 此 ， 我 们 拥有 了 一 个 位 于 CorpusSet 内 的 单词 集 ， 但 我 们 还 需要 将 它们 翻译 为 支持 向 量 
机 可 使 用 的 数据 。 最 常见 的 方法 是 将 输入 字符 串 转 换 为 一 个 由 0 和 1 构成 的 向 量 。 例 如 ， 
假设 我 们 有 一 个 语料库 “The quick brown fox”， 我 们 希望 确定 “the fox” 对 应 的 向 量 。 第 
一 步 应 当 是 读 取 “the quick brown fox”， 然 后 将 其 拆 分 成 表 6-1 所 示 的 索引 。 


表 6-1: CorpusSet 单 词 


单词 索引 
the 0 
quick 1 
brown 2 
fox 3 


既然 我 们 已 经 了 解 到 每 个 单词 所 关联 的 索引 ， 我 们 可 取 字 符 串 “the fox”， 并 生成 一 个 新 的 
行 向 量 ， 如 表 6-2 所 示 。 


单词 the quick brown fox 
索引 0 1 2 3 
“the fox” 1 0 0 1 


因此 ， 对 于 “the fox”， 我 们 仅 将 索引 0 和 3 设 为 1。 这 虽然 看 起 来 是 一 种 不 错 的 想法 ， 但 
你 应 意识 到 大 多 数 时 候 ， 一 个 由 训练 数据 构成 的 语料库 中 可 能 会 包含 上 千 个 单词 和 索引 。 
因此 对 于 每 个 字符 串 ， 我 们 的 行 向 量 中 的 0 元 素 将 超过 90%， 而 1 不 到 10%。 故 我 们 应 当 
考虑 在 Ruby 中 使 用 稀疏 向 量 或 散 列 。 


稀疏 向 量 与 矩阵 
稀 院 向 量 是 一 种 用 于 存储 向 量 或 矩阵 的 压缩 技术 。 例 如 ， 我 们 有 用 Ruby 描述 的 下 列 


向 量 : 
require 'objspace' 
sparse_array = 30_000.times.map {|i] (i % 3000 == 0) ? 1: 0} 
sparse_array.size #=> 30000 
ObjectSpace.memsize_of(sparse_array) #=> 302,672 bytes 


GRAY KAA 30 000, HPA 29 9900 个 元 素 都 为 0。 我 们 并 不 存储 所 有 的 0 元素 ， 
而 是 可 将 该 数组 变换 为 一 个 散 列 ， 仅 存储 与 非 替 元 素 对 应 的 索引 值 ; 


sparse_hash = Hash.new(0) 


sparse_array.each_with_index do |val, i| 
if val.nonzero? 
sparse_hash[i] = val 
else 
# Skip 
end 
end 


sparse_hash.size #=> 10 
ObjectSpace.memsize_of(sparse_hash) #=> 616 bytes 


请 注意 数量 显著 减少 了 。 大 小 从 最 初 的 30 000 降 到 了 10! 稀 朴 向 量 也 可 推广 到 矩阵 
形式 : 


require 'matrix' 
require ‘objspace' 
matrix = Matrix.build(300, 100) do |row, col| 
if row % 3 == 0 && col % 300 == 0 
1 
else 
0 
end 
end 


matrix.row_size * matrix.column_size #=> 30000 


# 仅 当 它 是 一 个 类 似 于 数组 的 对 象 时 ,memsiz_of 方 工作 


sparse_matrix = Hash.new(0) 


matrix.each_with_index do Je, row, col] 
if e.nonzero? 
sparse_matrix[[row, col]] =e 
else 
# e 为 9, 因 此 跳 过 
end 
end 


sparse_matrix.length #=> 100 
ObjectSpace.memsize_of(sparse_matrix) #=> 5,144 bytes 
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中 接收 到 了 恰当 的 信息 。 测 试 代码 如 下 : 
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# test/lib/corpus_set_spec.rb 


describe CorpusSet do 
it ‘returns a set of sparse vectors to train on' do 
expected_ys = [1, -1] 
expected_xes = [[0,1], [2,3]] 
expected_xes.map! do |x| 
Libsvm: :Node.features(Hash[x.map {|i| [i, 1]}]) 
end 


ys, xes = corpus_set.to_sparse_vectors 
ys.must_equal expected_ys 


xes.flatten.zip(expected_xes.flatten).each do |x, xp| 
x.value.must_equal xp.value 
x.index.must_equal xp.index 
end 
end 
end 


FN 具体 实 现 如 下 : 


# lib/corpus_set.rb 


class CorpusSet 
# 初始 化 
attr_reader :words 
def to_sparse_vectors 


calculate_sparse_vectors! 
[@yes, @xes] 


end 

private 

def calculate_sparse_vectors! 
return if @state == :calculated 
@yes = [] 
@xes = [] 


@corpora.each do |corpus| 
vectors = load_corpus(corpus) 
@xes.concat(vectors) 
@yes.concat([corpus.sentiment_code] * vectors. length) 
end 
@state = :calculated 
end 


def load_corpus(corpus) 
vectors = [] 
corpus.sentences do |sentence| 
vectors << sparse_vector(sentence) 
end 
vectors 
end 


SW Æ, CorpusSet 便 可 接收 多 个 Corpus 对 象 ， 并 将 其 转换 为 信息 的 稀 玻 散 列 ， 供 
SentimentClassifier 使 用 。 这 是 实际 使 用 SVM 算法 并 依据 数据 进行 训练 的 起 点 。 


6.4.5 SentimentClassifier 类 

既然 我 们 的 应 用 已 经 拥有 了 从 正面 和 负面 情绪 文本 中 抽取 训练 数据 的 功能 ， 接 下 来 便 可 
构建 应 用 的 SVM 部 分 (SentimentClassifier 类 )。 该 类 的 关键 在 于 从 一 个 CorpusSet 对 
象 接收 信息 ， 并 将 其 转换 到 SVM 模型 中 。 之 后 ， 我 们 便 可 将 新 的 信息 映射 为 :positive 
或 :negative。 除 了 构建 SentimentClassifier 类 ， 我 们 还 需 解决 下 列 问 题 。 


。 我 们 需要 一 些 手段 重 构 与 CorpusSet 的 交互 ,因为 CorpusSet 的 API 过 于 复杂 ,不 易 使 用 。 
。 我 们 需要 一 个 库 来 实现 SVM 算法 。 

。 我 们 需要 一 些 数据 来 训练 和 交叉 验证 。 

1. 重 构 与 CorpusSet 的 交互 


SentimentClassifier 类 接收 一 个 参数 ， 即 Corpusset。 它 表示 所 有 训练 数据 构成 的 语 料 集 。 
DEE, PRM Boe Corpusset 类 型 ， 我 们 可 能 会 使 用 下 列 语法 : 


# lib/sentiment_classifier.rb 


class SentimentClassifier 
def initialize(corpus_set) 
# 初始 化 
end 
end 


positive = Corpus.new(positive_file_path, :positive) 
Negative = Corpus.new(negative_file_path, :negative) 
corpus_set = CorpusSet.new([positive, negative] ) 
classifier = SentimentClassifier.new(corpus_set) 


这 并 不 是 一 种 良好 的 API 设 计 一 一 为 构建 一 个 Corpus 对 象 和 一 个 CorpusSet 对 
象 ， 它 需要 大 量 之 前 的 信息 。 实 际 中 ， 我 们 更 希望 利用 像 工 厂 方法 那样 的 东西 来 构建 
SentimentClassifier WA, build 方法 可 接收 多 个 指向 训练 数据 的 参数 。 我 们 并 不 传人 
一 个 散 列 ， 而 是 假设 正面 情绪 文本 的 扩展 名 为 .pos， 而 负面 情绪 文本 的 扩展 名 为 .neg。 


生成 一 个 名 为 build 的 工厂 方法 会 十 分 有 帮助 ， 且 不 需要 我 们 显 式 构建 任何 对 象 ， 它 依赖 
于 文件 系统 类 型 ， 因 此 我 们 只 需 对 空白 处 进行 填充 即 可 : 


# lib/sentiment_classifier.rb 


class SentimentClassifier 
def self.build(files) 
mapping = { 
'.pos' => :positive, 
'.neg' => :negative 


} 


corpora = files.map { |file| Corpus.new(file, mapping.fetch(File.extname(fil 


e)) } 


corpus_set = CorpusSet.new(corpora) 


new(corpus_set) 
end 
end 


在 这 个 阶段 ， 我 们 还 需要 做 出 两 个 决策 : 用 什么 库 来 构建 SVM 模型 ， 以 及 从 哪里 获取 训 


2. 实现 支持 向 量 机 算法 的 库 : LibSVM 

当 提 及 支持 向 量 机 的 库 时 ， 大 多 数 人 都 会 选择 LibSVM。 在 同类 库 中 ， 它 历史 最 悠 人 ， 完 
全 用 C 语言 实现 ， 且 拥有 很 多 绑 定 版 本 ， 包 括 Python, Java 和 Ruby 等 。 这 里 需要 提醒 你 
的 是 ， 服 务 于 LibSVM 的 Ruby gem 包 很 少 ， 而 且 并 非 所 有 gem 包 都 有 优异 的 性 能 。 我 们 
将 要 采用 的 rb-libsvm 包 支 持 稀 玻 向 量 ， 因 此 非常 适 于 用 来 解决 我 们 的 问题 。 虽 然 也 有 一 些 
gem 包 可 利用 swig 适配器 ， 但 不 幸 的 是 ， 它 们 也 不 支持 稀 玻 和 矩阵。 


3. 训练 数据 

到 目前 为 止 ， 我 们 尚未 讨论 我 们 的 工具 所 使 用 的 训练 数据 。 我 么 你 需要 一 些 可 被 映射 为 
正面 情绪 或 负面 情绪 的 文本 。 这 些 数 据 需要 被 组 织 成 若干 行 ， 并 保存 在 一 些 文件 中 。 目 
前 ， 有 很 多 不 同 的 数据 源 ， 但 我 们 所 要 使 用 的 数据 来 自 GitHub (https://github.com/jperla/ 
sentiment-data) 。 这 是 一 个 由 Pang Lee 所 整理 的 与 影评 所 体现 的 情绪 有 关 的 数据 集 。 


这 个 数据 集 具 有 高 度 的 特定 性 ， 只 适合 于 来 自 IMDb (Internet Movie Database) 的 影评 ， 
但 对 于 我 们 的 目的 而 言 ， 已 经 足够 了 。 如 果 你 准备 在 其 他 程序 中 使 用 这 些 数据 ， 建 议 你 选 
择 与 所 要 解决 的 问题 匹配 的 数据 集 。 例 如 ，Twitter 的 推 文 的 情绪 分 析 应 当 来 自 实际 的 、 可 
被 映射 为 正面 情绪 和 负面 情绪 的 推 文 。 请 牢记 ， 通 过 创建 调查 问卷 和 将 工作 分 配给 亚马逊 
旗下 的 机 械 土 耳 其 机 器 人 (Mechanical Turk) 服务 ， 构 建 自己 的 数据 集 并 非 想 象 中 那么 难 。 


4. 用 影评 数据 进行 交叉 验证 

交 又 验证 是 确保 数据 被 妥善 用 于 训练 以 及 模型 如 期 工作 的 最 佳 途径 。 其 基本 思想 是 将 一 个 
较 大 的 数据 集 划 分 为 两 个 或 更 多 的 子 集 ， 然 后 用 其 中 一 个 子 集 做 训练 ， 而 用 其 他 子 集 来 做 
验证 。 


用 测试 形式 ， 交 又 验证 如 下 所 示 : 
# test/cross_validation_spec.rb 


describe 'Cross Validation' do 
include TestMacros 


def self.test_order 


:alpha 
end 


(-15..15).each do |exponent| 
it "runs cross validation for C=#{2**exponent}" do 
neg = split_file("./config/rt-polaritydata/rt-polarity.neg") 
pos = split_file("./config/rt-polaritydata/rt-polarity.pos") 


classifier = SentimentClassifier.build([ 
neg.fetch(:training), 
pos. fetch(: training) 


]) 
# 找到 最 小 值 


c = 2 ** exponent 
classifier.c = c 


n_er = validate(classifier, neg.fetch(:validation), :negative) 
p_er = validate(classifier, pos.fetch(:validation), :positive) 


total = Rational(n_er.numerator + p_er.numerator, n_er.denominator + p_er.d 
enominator ) 


skip("Total error rate for C=#{2 ** exponent} is: #{total.to_f}") 
end 
end 
end 


这 里 我 们 使 用 了 skip 和 self.test_order, skip 方法 用 于 向 我 们 提供 信息 ， 但 本 身 并 不 进 
行 任何 测试 。 因 为 我 们 试图 寻找 最 优 C， 所 以 只 使 用 测试 进行 实验 。 还 应 注意 的 是 ， 我 们 
覆盖 了 test_order， 并 将 其 设 为 alpha。 这 是 因为 最 小 测试 默认 使 用 随机 顺序 ， 这 意味 着 
当 我 们 遍历 从 -15 到 15 这 个 数列 时 ， 将 得 到 无 序 的 数据 。 如 果 我 们 按 顺序 观察 数据 ， 则 
结果 将 更 加 易于 解释 。 


另外 需要 注意 的 是 ， 我 们 引入 了 两 个 新 方法 : split_file 和 validate。 它 们 都 位 于 我 们 的 
测试 安 模块 中 
# test/test_macros.rb 
module TestMacros 
def validate(classifier, file, sentiment) 
total = 0 


misses = 0 


File.open(file, 'rb').each_line do |line| 


if classifier.classify(line) != sentiment 
misses += 1 
else 
end 
total += 1 
end 


Rational(misses, total) 
end 


def split_file(filepath) 
ext = File.extname(filepath) 
validation = File.open("./test/fixtures/validation#{ext}", "wb") 
training = File.open('"./test/fixtures/training#{ext}", "wb") 


counter = 0 
File.open(filepath, 'rb').each_line do |1| 
if (counter) % 2 == 0 
validation.write(1L) 


else 
training.write(l) 
end 
counter += 1 
end 


training.close 
validation.close 
end 
end 


在 该 测试 中 ， 我 们 从 -15 — BS CB 15。 这 将 覆盖 我 们 能 够 遇 到 的 大 多 数 情 况 。 待 交叉 验 


证 结束 后 ， 我 们 可 选择 最 优 的 C， 并 将 其 运用 于 最 终 的 模型 。 从 技术 上 讲 ， 这 称 为 网 格 搜 
索 (grid search) ， 这 种 方法 试图 通过 一 组 试验 找到 一 个 足够 好 的 解 。 


让 


现在 我 们 需要 来 完善 SentimentClassifier 类 的 后 台 功 能 。 我 们 在 此 利用 LibSVM 来 构建 
模型 ， 并 生成 一 个 很 小 的 状态 机 


# lib/sentiment_classifier.rb 


class SentimentClassifier 
# build 
def initialize(corpus_set) 
@corpus_set = corpus_set 


@c = 2 xx 7 
end 
def c=(cc) 
@c = cc 
@model = nil 
end 
def words 
@corpus_set.words 
end 


def classify(string) 
if trained? 
prediction = @model.predict(@corpus_set.sparse_vector(string) ) 
present_answer (prediction) 
else 
@model = model 


classify(string) 
end 
end 


def trained? 
!!@model 
end 


def model 
puts 'starting to get sparse vectors' 
y_vec, x_mat = @corpus_set.to_sparse_vectors 


prob = Libsvm: :Problem.new 
parameter = Libsvm::SvmParameter .new 
parameter.cache_size = 1000 


parameter.gamma = Rational(1, y_vec.length).to_f 
parameter .eps = 0.001 


parameter.c = @c 
parameter.kernel_type = Libsvm: :KernelType: :LINEAR 


prob.set_examples(y_vec, x_mat) 
Libsvm::Model.train(prob, parameter) 
end 
end 


这 部 分 代码 更 加 有 趣 ， 我 们 实际 上 是 构建 支持 向 量 机 来 求解 剩余 的 问题 。 如 前 所 述 ， 我 


们 使 用 了 非常 标准 的 LibSVM。 我 们 首先 构建 自己 的 sparse_vectors， 然 后 加 载 一 个 新 的 
LibSVM 问题 ， 最 后 将 其 参数 设 为 默认 值 。 


交叉 验证 完毕 后 ， 我 们 会 看 到 最 优 的 C 为 128， 其 对 应 的 错误 率 约 为 30%。 


6.4.6 ”随时 间 提 升 结果 

要 改进 上 述 的 30% 的 错误 率 ， 有 多 种 策略 ， 通 常 涉及 一 些 试验 : 
。 删除 停 用 词 

。 改进 符号 化 

。 使 用 不 同 的 多 项 式 核 


你 也 可 对 同一 组 数据 尝试 儿 个 别 的 算法 ， 观 察 哪个 性 能 更 优 。 


6.5 小结 


支持 向 量 机 算法 非常 适合 求解 两 个 可 分 类 别 的 分 类 问题 。 我 们 可 对 该 算法 进行 修改 ， 使 之 
能 够 处 理 多 类 分 类 问题 ， 并 避免 像 玉 近邻 算法 那样 受到 维 数 灾 难 的 影响 。 本 章 介绍 了 如 何 
运用 SVM 将 忠诚 用 户 和 不 忠诚 用 户 分 离开 来 ， 以 及 如 何 为 影评 数据 赋予 情绪 标签 。 
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神经 网 络 


神经 网 络 (或 网 络 ) 可 有 效 地 以 某 个 函数 对 观测 数据 进行 映射 。 研 究 者 已 经 能 够 利用 神经 
网 络 来 完成 手写 体检 测 、 计 算 机 视觉 、 语 音 识别 等 复杂 任务 ， 并 取得 了 突破 性 的 进展 。 


本 质 上 ， 神 经 网 络 是 一 种 从 数据 中 学 习 的 有 效 途 径 ， 并 具有 悠久 的 历史 ， 可 追溯 到 19 世 
纪 初 。 在 本 章 中 ， 我 们 将 讨论 神经 网 络 算法 的 形成 、 发 展 、 工 作 原理 ， 以 及 一 个 基于 字符 
频率 的 语言 分 类 案例 。 


神经 网 络 算法 在 函数 逼近 和 有 监督 学 习 问 题 上 具有 突出 的 性 能 。 它 几乎 适用 
于 任何 场合 ， 且 已 被 证 实在 实践 中 非常 成 功 。 然 而 ， 它 只 能 对 二 值 输入 进行 
操作 ， 并 从 复杂 性 和 效率 方面 提出 了 一 些 挑战 。 


7.1 神经 网 络 的 历史 


在 神经 网 络 最 初 被 提出 时 ， 人 们 希望 用 它 来 研究 人 脑 的 工作 机 制 。 人 脑 中 的 神经 元 构成 
一 种 网 络 结构 ， 并 协同 处 理 和 理解 输入 和 刺激 。Alexander Bain 和 William James 均 提 出 ， 
人 脑 以 能 够 处 理 大 量 信息 的 网 状 方式 工作 。 这 种 神经 元 网 络 能 够 识别 模式 和 从 之 前 遇 到 的 
数据 中 进行 学 习 。 例 如 ， 当 向 一 个 孩子 展示 一 张 包含 八条 狗 的 照片 后 ， 他 便 开始 理解 狗 的 
样子 。 

这 项 研究 后 来 被 扩展 ， 将 更 加 入 工 化 的 响应 曲线 包含 进来 ， 由 Warren McCulloch 和 Walter 
Pitts 发 明了 阅 值 远 辑 (threshold logic), BUA et Ic fa BUTEA, Dee RE. 
fel Ve WOE FAS EAA SCY Br sk oh 3k, FPO SZ HE BZ 
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7.2 AA LHAMA 

人 工 神 经 网 络 (参见 图 7-1) 是 一 种 稳健 国 数 ， 可 接收 任意 输入 并 将 其 拟 合 到 一 组 任意 的 
二 值 输 出 。 它 在 模糊 匹配 、 构 建 稳健 函数 以 与 任何 输出 匹配 方面 具有 突出 的 表现 。 实 践 
中 ， 神 经 网 络 被 用 于 深度 学 习 研 究 ， 以 将 图 像 与 特征 进行 匹配 等 。 


图 7-1: 神经 网 络 的 可 视 化 表示 


模糊 匹配 是 一 种 一 般 性 的 机 器 学 习 问题 ， 甚 目标 是 依据 之 前 的 信息 将 输入 与 
输出 进行 匹配 。 


神经 网 络 的 特别 之 处 在 于 使 用 了 位 于 隐 含 层 的 加 权 函 数 一 一 神经 元 。 利 用 神经 元 ， 可 有 
效 构 建 可 逼近 大 量 函 数 的 网 络 。 如 果 没 有 隐 含 层 的 国 数 ， 神 经 网 络 将 只 是 一 组 简单 的 加 
AL PR BL. 

神经 网 络 可 用 各 层 的 神经 元 数目 来 表示 。 例 如 ， 如 果 某 个 网 络 的 输入 层 有 20 个 神经 元 ， 
REBRA 10 个 神经 元 ， 而 输出 层 有 5 个 神经 元 ， 则 该 网 络 可 表示 为 20-10-5。 如 果 隐 含 层 
的 数目 多 于 1， 则 可 将 其 表示 为 20-7-7-5 (中 间 的 两 个 7 表示 该 网 络 有 两 个 隐 含 层 ， 每 层 
的 结 点 数 均 为 7)。 


简 言 之 ， 神 经 网 络 由 下 列 部 件 构 成 : 


。 输入 层 
。 REE 
。 神经 元 
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。 输出 层 
。 训练 算法 


接 下 来 将 解释 每 个 部 件 的 含义 及 其 工作 原理 。 

7.2.1 输入 层 

输入 层 (如 图 7-2 Bras) 是 神经 网 络 的 入 口 点 。 它 是 给 予以 模型 的 输入 的 入 口 点 。 这 一 
mi 


中 不 含 神经 元 ， 因 为 它 主 要 用 作 隐 含 层 的 管道 。 输 入 类 型 十 分 重要 ， 因 为 神经 网 络 只 能 接 
收 两 种 类 型 的 输入 : 对 称 输入 和 标准 输入 。 


输入 层 隐 含 层 输出 层 


图 7-2: 神经 网 络 的 输入 层 


训练 神经 网 络 时 ， 我 们 拥有 一 些 观测 量 和 输入 。 以 简单 的 异 或 运算 (XOR) 为 例 ， 真 值 表 
如 表 7-1 所 示 。 

表 7-1: 异 或 运算 真 值 表 

输入 A AB 输出 


HH 
ie es 
ies 


在 本 例 中 ， 共 有 四 个 观测 量 和 两 个 输入 ， 其 值 非 真 即 假 。 神 经 网 络 并 不 直接 利用 真 或 假 ， 
了 解 如 何 对 输入 编码 才 是 最 关键 的 。 我 们 需要 将 它们 变换 为 标准 输入 或 对 称 输入 。 

1. 标准 输入 

输入 值 的 标准 范围 是 0~1。 在 之 前 的 异 或 例子 中 ， 我 们 可 将 真 编码 为 1， 将 假 编码 为 0。 


这 种 类 型 的 输入 有 一 个 缺陷 ， 如 果 数 据 很 稀 纹 ， 即 绝 大 多 数 元 素 为 0， 则 可 能 会 使 结果 产 
生 偏 倚 。 一 个 数据 集 拥有 大 量 0 意味 着 模型 失效 的 风险 也 较 高 。 仅 当知 道 不 存在 稀 玻 数据 
时 ， 才 使 用 标准 输入 。 
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2. 对 称 输入 
对 称 输 入 避免 了 存在 大 量 0 的 问题 。 输 入 值 的 取 值 范围 是 -1~+1。 在 之 前 的 例子 中 ， 可 将 
假 取 为 -1， 而 将 真 取 为 +1. 


这 种 类 型 的 输入 的 好 处 是 不 会 由 于 归 零 效应 而 使 模型 失效 。 此 外 ， 它 不 那么 关注 输入 分 布 
的 中 间 值 。 如 果 为 异 或 运算 引入 一 个 值 “ 可 能 "， 则 可 将 其 映射 为 0 并 忽略 。 


输入 既 可 采用 标准 格式 ， 也 可 采用 对 称 格 式 ， 但 使 用 时 需要 标注 清楚 ， 因 为 神经 元 输出 的 
计算 取决 于 输入 的 格式 。 


7.2.2 KSB 
如 果 没 有 隐 含 层 ， 神 经 网 络 将 只 是 一 组 加 权 线 性 组 合 。 换 言 之 ， 隐 含 层 赋予 了 神经 网 络 对 
非 线性 数据 建 模 的 能 力 (参见 图 7-3)。 


图 7-3: 神经 网 络 的 隐 含 层 


每 个 隐 含 层 中 都 包含 了 一 组 神经 元 (如 图 7-4 所 示 )。 这 些 神经 元 将 其 输出 直接 传递 给 输出 层 。 


输入 层 隐 含 层 输出 层 


图 7-4: 神经 网 络 中 的 神经 元 
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7.2.3 神经 元 
神经 元 完成 的 计算 是 将 加 权 线 性 组 合 包 庄 进 一 个 激活 国 数 。 加 权 线 性 组 合 (或 和 ) 是 一 种 
将 前 面 的 神经 元 的 数据 整合 为 一 个 输出 ， 并 作为 下 一 层 输入 的 方式 。 激 话 函 数 (如 图 7-5 
所 示 ) 是 一 种 将 数据 归 一 化 的 方法 ， 可 使 其 格式 变 为 对 称 型 或 标准 型 。 


YW Xt WX, 


Xz 


图 7-5: QGRHMSwA AT 
当 一 个 网 络 将 信息 前 馈 时 ， 它 会 将 之 前 的 输入 整合 为 一 个 加 权 和 。 我 们 取 y 的 值 ， 并 依据 


激活 函数 计算 激活 值 。 


激活 函数 


如 前 所 述 ， 激 活 函 数 ( 表 7-2 FH 
或 对 称 型 的 方法 。 它 们 均 可 微 ， 且 需要 具有 可 微 性 ， 这 是 


利用 这 一 点 。 
表 7-2: 常见 的 激活 函数 
名 称 标准 型 对 称 型 
Si id 1 z 2 p = 1 
igmoi | item 
RIZ BL oS + 0.5 cos(sum) 
正弦 函数 sieum) +0.5 sin(sum) 
ks 1 2 
高 斯 函数 et 
e e 
0.5sum sum 
; 一 + 0.5 
Elliott 1+ | sum | 1+ | sum | 
线性 函数 sum>1?1:(sum<O:sum) sum>1?1:(sum<-1?-1:sum) 
{EL PAB sum<00:1 sum<0?-1:1 


使 用 激活 函数 最 大 的 好 处 是 它们 提供 了 一 种 缓存 每 层 输入 值 


内 


4H 了 部 分 常用 的 激活 函数 ) 是 一 种 将 数据 规 一 化 为 标准 型 


为 训练 算法 在 学 习 权 值 时 需要 


的 途径 。 这 是 非常 有 用 的 ， 
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为 神经 网 络 拥有 一 种 发 现 模 式 并 忘记 噪声 的 方法 。 

有 两 类 主要 的 激活 函数 ， 一 类 是 斜坡 激活 函数 ， 另 一 类 是 周期 激活 函数 。 在 大 多 数 场 合 
中 ， 将 斜坡 激活 函数 (参见 图 7-6 和 图 7-8) 作为 默认 选项 都 是 适宜 的 。 周 期 激活 函数 ( 参 
见 图 7-7 和 图 7-9) 可 用 于 随机 数据 ， 包 括 正弦 和 余弦 函数 。 


+ ' 1 ， l ' l ' 
it Sigmoid 
高 斯 国 数 
Elliott 
+ 国 值 函 数 
线性 函数 
0.5 十 
nk 
of 
RR 
pel 
g 
—0.5+ 
-1 f 1 | t t + 
-4 -2 0 2 4 
加 权 和 


7-6: 对 称 斜坡 激活 函数 


feos 


输出 到 下 一 层 


图 7-7: 对 称 周期 激活 函数 


Sigmoid 
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函数 
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图 7-8: 标准 斜坡 激 
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87-9: 标准 周期 激活 函数 


由 于 Sigmoid 具有 平滑 决策 的 能 力 ， 它 是 神经 元 使 用 的 默认 激活 函数 。Elloitt 是 一 种 便于 
快速 计算 的 Sigmoid 型 激活 函数 ， 


因此 我 在 本 章 案 例 中 选择 了 它 。 


al 


当 需 要 对 一 些 看 起 来 与 
某 个 随机 过 程 关联 的 对 象 进行 映射 时 ， 可 使 用 正弦 函数 和 余弦 函数 。 在 大 多 数 情况 下 ， 这 
些 三 


国 数 对 于 我 们 都 用 处 不 大 。 


所 有 的 运算 均 在 神经 元 中 完成 。 神 经 元 接收 前 一 层 输 入 的 加 权 和 ， 送 入 一 个 激活 国 
数 ， 并 将 结果 钳 位 在 OU 或 CE+H 内 。 对 于 拥有 两 个 输入 的 神经 元 ， 其 输出 可 表示 为 


y= (mia 十 waX2)， 其 中 是 一 个 激活 函数 (如 Sigmoid), w, 是 由 训练 算法 所 确定 的 权 人 


fo 


o 
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7.2.4 输出 层 

输出 层 与 输入 层 类 似 ， 只 是 它 包 含 了 一 组 神经 元 。 它 是 数据 的 模型 出 口 。 与 输入 层 类 似 ， 
输出 层 的 输入 类 型 也 分 为 对 称 型 和 标准 型 。 

输出 层 确 定 了 有 多 少 神经 元 产生 输出 ， 它 代表 了 我 们 所 要 建 模 的 函数 (参见 图 7-10)。 对 


于 一 个 其 输出 值 表 示 交 通 灯 状态 ( 红 、 绿 、 黄 ) 的 函数 ， 我 们 拥有 三 个 输出 (每 种 颜色 对 
应 一 个 输出 )。 这 些 输出 中 的 每 一 个 都 包含 了 我 们 所 希望 的 逼近 结果 。 


图 7-10: 神经 网 络 的 输出 层 


7.2.5 训练 算法 
如 前 所 述 ， 每 个 神经 元 的 权 值 来 自 于 一 个 训练 算法 。 训 练 算法 有 很 多 种 ， 但 最 常见 的 是 ; 
。 反 向 传播 (BP) 算法 


e QuickProp 
。 RProp 


所 有 这 些 算法 都 可 为 每 个 神经 元 找到 最 优 的 权 值 。 它 们 通过 迭代 (也 称 epoch) 来 达到 这 
个 目标 。 对 于 每 个 epoch， 训 练 算法 都 会 经 过 整个 神经 网 络 ， 并 将 实际 输出 与 期 望 输出 进 
行 比较 。 学 习 算 法 无 一 不 是 从 过 去 的 错误 计算 中 进行 学 习 的 。 


这 些 算 法 有 一 个 共同 点 : 它们 均 是 试图 在 一 个 凸 误差 曲面 内 寻找 最 优 解 。 可 将 四 误差 曲 画 
想象 为 一 个 碗 ， 其 中 包含 一 个 最 小 值 。 设 想 你 最 初 位 于 一 座 山 的 顶部 ， 并 希望 到 达 山 谷 的 
谷底 ， 但 山谷 中 密布 了 很 多 树木 。 你 看 不 清 前 方 的 路 ， 但 清楚 自己 希望 到 达 山 谷 的 谷底 。 
你 会 依据 局 部 输入 来 行进 ， 并 猜测 下 一 步 走 到 哪里 。 这 便 是 梯度 下 降 算法 的 基本 原理 ( 即 
沿 着 山谷 向 下 行走 ， 以 将 误差 最 小 化 )， 如 图 7-11 所 示 。 训 练 算法 也 是 一 样 ， 利 用 局 部 信 
息 来 将 误差 最 小 化 。 


Q7-11: 梯度 下 降 算法 示意 


1. Delta 规 则 

虽然 我 们 可 以 求解 一 个 大 规模 方程 组 ， 但 采用 迭代 策略 效果 更 胜 一 筹 。 我 们 并 不 试图 去 计 
算 误 差 函 数 对 权 值 的 偏 导 ， 而 是 计算 每 个 神经 元 权 值 的 变化 量 。 这 被 称 为 Delta 规则 ， 如 
下 所 示 : 


ôwji = a(tj — d(hj)) bh xi 
该 规则 表明 神经 元 7 的 第 i 个 权 值 的 增 量 为 : 


alpha * (expected - calculated) * derivative_of_calculated * input_at_i 


其 中 ，alpha 为 学 习 率 (learning rate)， 其 值 很 小 。 著 名 的 反 向 传播 算法 (Delta 规则 的 一 
般 情形 ) 正 是 基于 这 种 思想 。 


2. 反 向 传播 
反 向 传播 算法 是 用 于 确定 神经 元 权 值 的 三 种 算法 中 最 简单 的 一 种 。 我 们 将 误差 定义 为 
(expected* actual)”， 其 中 expected 是 期 望 输出 ， 而 actual 为 神经 元 的 实际 输出 。 我 们 希 
望 找到 使 导数 为 0 的 位 置 ， 即 极 小 点 : 

Aw(t) =—a(t— yp xi + edAw(t— 1) 


其 中 ，e 为 动量 因子 (momentum factor) ， 它 会 将 之 前 的 权 值 变化 转化 为 当前 的 权 值 增 量 ， 
其 中 a 为 学 习 率 。 


反 向 传播 算法 的 不 足 在 于 它 需 要 许多 epoch 才能 收敛 。 直 到 1988 年 ， 研 究 者 们 才 有 能 力 训练 
简单 的 神经 网 络 。 人 们 对 提升 效率 的 研究 导致 了 一 种 全 新 的 学 习 算法 的 产生 一 Quick Prop. 
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3. QuickProp 
Scott Fahlman 在 研究 了 如 何 改 进 反 向 传 播 算 法 后 ， 提 出 了 QuickProp 算法 。 他 声称 反问 传 
播 算法 需要 很 长 时 间 才 能 收 化 。 他 建议 我 们 选择 最 大 的 步 长 ， 而 无 需 担心 越过 最 优 解 。 


Fahlman 认为 存在 两 种 改进 反 向 传播 算法 的 方式 : 增加 动量 项 并 动态 调整 学 习 率 ， 以 及 利 
用 误差 相对 于 每 个 权 值 的 二 阶 导数 。 对 于 第 一 种 情形 ， 我 人 ee 在 第 
二 种 情形 中 ， 我 们 可 利用 牛顿 的 函数 逼近 法 。 


QuickProp 与 反 向 传播 算法 的 主要 区 别 在 于 ， 在 上 一 epoch 期 间 ， 我 们 保存 了 所 计算 的 误 
差 导数 ， 以 及 权 值 的 当前 权 值 和 先前 权 值 之 间 的 差异 。 


为 计算 时 刻 上 的 权 值 变化 ， 可 使 用 下 列 公式 : 


S(t) 


Aw(t — 1) 
S= = SA) 


Aw(t) = 


该 公式 有 将 权 值 改变 过 多 的 风险 ， 因 此 对 于 最 大 增 量 有 一 个 专门 的 新 参数 。 任 何 权 值 都 不 
允许 在 数量 上 大 于 最 大 增长 率 与 权 值 在 上 一 步 增 量 之 积 


4. RProp 

由 于 RProp 的 快速 收敛 性 ， 它 已 成 为 最 常用 的 学 习 算 法 。 该 算法 由 Martin Riedmiller 于 20 
世纪 90 年 代 提 出 ， 并 在 后 来 进行 了 若干 改进 。 由 于 它 洞悉 到 算法 可 在 一 个 epoch 内 多 次 更 
新 权 值 ， 因 此 它 可 快速 收敛 到 某 个 解 。 该 算法 并 不 依据 某 个 公式 去 计算 权 值 的 增 量 ， 而 是 
仅 利用 增 量 的 符号 以 及 一 个 提升 因子 和 下 降 因 子 。 


为 了 解 该 算法 的 实现 细节 ， 我 们 需要 定义 少量 常量 (或 默认 值 )。 有 一 种 方式 可 确保 该 算 
法 不 会 永远 计算 下 去 或 产生 震荡 。 这 些 默 认 值 都 取 自 FANN 库 。 


这 个 基本 算法 用 Ruby 语言 更 易于 解释 ， 而 无 需 写 出 偏 导 。 


为 降低 阅读 的 难度 ， 请 注意 我 并 未 计算 误差 的 梯度 ( 即 误差 相对 于 某 个 特定 
权 值 的 变化 )。 


下 列 通 过 一 段 纯 Ruby 代码 帮助 你 理解 RProp 算法 : 


neurons = 3 
inputs = 4 


delta_zero = 0.1 
increase factor = 1.2 
decrease_factor = 0.5 
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delta_max = 50.0 

delta_min = 0 

max_epoch = 100 

deltas = Array.new(inputs) { Array.new(neurons) { delta_zero }} 
Llast_gradient = Array.new(inputs) { Array.new(neurons) { 0.0 } } 


sign = ->(x) { 

if x >0 
1 

elsif x < 0 
-1 

else 
0 

end 


} 
weights = inputs.times.map {|i] rand(-1.0..1.0) } 


1.upto(max_epoch) do |j| 
weights.each_with_index do |i, weight] 
# 当前 梯度 从 每 层 中 每 个 值 的 变化 推导 而 来 


gradient_momentum = last_gradient[i][j] * current_gradient[i][j] 


if gradient_momentum > 0 
deltas[i][j] = [deltas[i][j] * increase factor, delta_max].min 
change_weight = -sign.(current_gradient[i][j]) * deltas[i][j] 
weights[i] = weight + change weight 
Last_gradient[i][j] = current_gradient[i][j] 

elsif gradient_momentum < 0 
deltas[i][j] = [deltas[i][j] * decrease factor, delta_min].max 
Last_gradient[i][j] = 0 

else 
change_weight = -sign.(current_gradient[i][j]) * deltas[i][j] 
weights[i] = weights[i] + change_weight 
Last_gradient[i][j] = current_gradient[i][j] 

end 

end 
end 


为 构建 一 个 神经 网 络 ， 这 些 都 是 你 需要 理解 的 基础 内 容 。 接 下 来 ， 我 们 将 讨论 如 何 构建 神 
经 网 络 ， 以 及 为 使 其 更 加 有 效 必须 做 出 哪些 决策 。 


7.3 构建 神经 网 络 


在 开始 构建 神经 网 络 之 前 ， 必 须 先 回答 下 列 问题 ; 


应 使 用 多 少 个 隐 含 层 ? 
每 层 的 神经 元 数目 应 为 多 少 ? 
误差 容 限 应 设 为 多 大 ? 
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7.3.1 隐 含 层 数目 的 选择 
前 面 我 们 介绍 过 ， 神 经 网 络 的 独特 之 处 在 于 隐 含 层 的 使 用 。 如 果 将 隐 含 层 移 除 ， 神 经 网 络 
将 只 能 完成 简单 的 线性 运算 。 你 一 定 不 愿 随 意 选 用 隐 含 层 的 数目 ， 不 过 下 列 三 种 试探 法 会 
对 你 有 所 帮助 。 


。 隐 含 层 的 数目 不 宜 超过 2; 否则 ， 发 生 过 拟 合 的 几 泰 便 会 增 大 。 如 果 层 数 过 多 ， 网 络 就 
会 开始 记忆 训练 数据 。 显 然 ， 这 与 我 们 发 现 模式 的 初衷 相悖 。 

。 一 个 隐 含 层 所 完成 的 实际 上 是 一 个 连续 映射 。 这 是 最 常见 的 情形 。 大 多 数 神经 网 络 只 包 
含 一 个 隐 含 层 。 

。 两 个 隐 含 层 将 能 够 实现 任意 连续 映射 。 这 是 一 种 不 太 常 见 的 情形 ， 但 如 果 你 了 解 自 己 缺 
少 连 续 映 射 ， 便 可 使 用 两 个 隐 含 层 。 


对 于 隐 含 层 数 目的 选择 ,没有 什么 固定 规则 可 循 。 归 纳 起 来 ， 无 非 是 努力 降低 对 数据 过 拟 
合 或 欠 拟 合 的 风险 。 


7.3.2 每 层 中 神经 元 数目 的 选择 

神经 网 络 是 性 能 优异 的 整合 器 和 无 与 伦比 的 扩展 器 。 神 经 元 自身 的 输入 是 位 于 其 前 的 神经 
元 输出 的 加 权 和 ， 因 此 其 扩张 能 力 通常 略 逊 于 整合 能 力 。 例 如 ， 隐 含 层 共有 2 个 结 点 ， 而 
输出 层 有 30 个 结 点 ， 则 对 于 每 个 输出 神经 元 ， 都 拥有 两 个 输入 。 因 而 缺乏 足够 的 燃 或 数 
据 来 形成 一 个 拟 合 度 较 高 的 模型 。 


强调 聚合 而 非 扩张 ， 可 得 到 下 列 启发 式 策 略 。 


。 隐 含 层 神经 元 的 数目 应 当 介 于 输入 的 个 数 和 输出 层 神经 元 数目 之 间 。 
。 隐 含 层 神经 元 的 数目 应 为 输入 层 尺寸 的 2/3 加 上 输出 层 的 尺寸 。 
。 隐 含 层 神经 元 的 数目 应 当 小 于 输入 层 尺寸 的 两 倍 。 
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总 之 ， 我 们 需要 通过 反复 试验 来 确 隐 含 层 神经 元 的 数目 ， 因 为 它 会 影响 模型 的 交叉 验证 性 
能 以 及 收敛 性 。 这 只 是 一 个 起 点 。 


7.3.3 ”误差 容 限 和 最 大 epoch 的 选择 

误差 容 限 决定 了 训练 何 时 停止 。 我 们 永远 无 法 得 到 一 个 完美 的 解 ， 而 只 能 收敛 到 某 个 解 。 
如 果 和 希望 拥有 一 个 性 能 恨 好 的 算法 ， 则 错误 率 应 当 具 有 较 低 的 水 平 ， 如 0.01%。 但 在 大 多 
数 情况 下 ， 由 于 算法 对 误差 的 容忍 度 较 低 ， 训 练 时 长 通常 都 较 和 久 。 

很 多 人 最 初 会 将 误差 容 限 设 为 1%。 通 过 交叉 验证 ， 这 个 指标 可 能 会 进一步 降低 。 用 神经 
网 络 的 术语 来 说 ， 误 差 容 限 是 内 部 的 ， 用 均 方 误 差 来 度量 ， 并 为 网 络 定 义 了 一 个 训练 停 
止 点 。 


神经 网 络 需要 通过 多 个 epoch 进行 训练 ， 在 训练 开始 之 前 便 需 要 对 最 大 epoch 进行 设置 。 
如 果 算 法 经 过 10 000 轮 和 迭代 后 得 到 了 一 个 解 ， 则 该 网 络 被 过 度 训练 的 风险 便 很 高 ， 从 而 使 
网 络 灵敏 度 过 高 。 在 训练 阶段 ， 一 个 好 的 起 点 是 将 最 大 epoch 数 取 为 1000。 这 样 ， 既 可 对 
某 种 程度 上 的 复杂 性 进行 建 模 ， 同 时 也 不 会 训练 过 度 。 


最 大 epoch 数 和 最 大 误差 都 决定 了 收敛 点 。 它 们 都 可 指示 训练 算法 何 时 可 以 终止 并 生成 最 
终 的 神经 网 络 。 至 此 ， 我 们 对 神经 网 络 已 有 了 足够 的 了 解 ， 下 面 我 们 通过 一 个 实际 案例 来 
加 深 理 解 。 


7.4 利用 神经 网 络 对 语言 分 类 

一 门 语言 中 所 使 用 的 字符 与 该 语言 自身 有 直接 的 关系 。 依 据 其 字符 ， 普 通话 是 可 以 识别 
的 ， 因 为 每 个 字符 都 对 应 一 个 特定 的 词 。 拉 丁 语系 中 的 很 多 语言 也 是 如 此 ， 但 需要 依据 字 
母 频率 来 判定 。 


如 果 观 察 英语 句子 “The quick brown fox jumped over the lazy dog” 及 其 德语 版 本 “Der 
schnelle braune Fuchs sprang über den faulen Hund”， 可 得 到 如 表 7-3 所 示 的 词 频数 据 。 


表 7-3: 英语 和 德语 句子 之 间 的 词 频 差异 


a Dec E o a nO St UY Wk Vl 
英语 VL 2 0 2 0 
德语 3 2 2 3 72 1 3 0 0 0 3 0 6 0 1 0 4 2 0 4 0 0 0 0 1 1 
% 211131011112154012222111 101 


德语 和 英语 之 间 存 在 微妙 的 差异 。 德 语 中 使 用 N 较 多 ， 而 英语 中 使 用 O 较 多 。 那 么 如 何 
将 此 扩展 到 更 多 的 欧洲 语言 呢 ? 具体 说 来 ， 如 何 构建 一 个 模型 来 对 用 英语 、 波 兰 语 、 德 
语 、 芬 兰 语 、 瑞 典 语 或 挪威 语 书写 的 句子 进行 分 类 ? 


本 例 中 ， 我 们 将 构建 一 个 依据 句子 中 字符 频率 来 预测 语言 的 简单 模型 。 在 开始 之 前 ， 我 
们 需要 一 些 数据 。 为 此 ， 我 们 打算 使 用 世界 上 译本 最 多 的 书籍 一 一 《圣经 》。 我 们 抽取 了 
Matthew 和 Acts 中 的 全 部 章节 。 


我 们 将 要 采取 的 方法 是 从 这 些 文本 文件 中 提取 所 有 的 句子 ， 并 创建 一 些 其 分 量 归 一 化 到 
O~1 的 频率 向 量 。 据 此 ， 我 们 将 训练 一 个 可 接收 这 些 输入 ， 并 将 其 映射 为 一 个 6 维 向 量 的 
神经 网 络 。 这 个 向 量 中 仅 有 与 输入 对 应 的 语言 的 索引 所 对 应 的 分 量 为 1， 而 其 余 分 量 为 0。 
例如 ， 若 我 们 用 于 训练 的 语言 索引 是 3， 则 该 向 量 应 当 为 [0,0,0,1,0,0] (FERA 0 算 起 )。 
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安装 说 明 


本 例 中 使 用 的 所 有 代码 均 可 从 GitHub (https://github.com/thoughtfulml/examples/ 
tree/master/6-neural-networks) 获取 。 


由 于 Ruby 处 于 持续 的 更 新 和 变化 之 中 ， 因 此 要 想 获悉 如 何 快 速 上 手 这 些 例 
子 ，README 文件 无 疑 是 最 佳 选 择 。 


数据 获取 


如 果 和 希望 抓 取 数 据 ， 我 编写 了 下 列 脚本 来 帮助 你 从 Biblegateway.com 抓 取 《和 圣经》 中 
的 铅 子 : 


require 'nokogiri' 
require ‘open-uri' 


url = "http://www.biblegateway.com/passage/" 


languages = { 
'English' => { 
"version' => 'ESV', 
"search' => ['Matthew', 'Acts'] 
}, 
"Polish' => { 
"version' => 'SZ-PL', 
"search' => ['Ewangeliat+wedlug+sw.+Mateusza', 'Dzieje+Apostolskie' ] 
}, 
"German' => { 
"version! => 'HOF', 
"search' => ['Matthaeus', 'Apostelgeschichte' ] 
}, 
'Finnish' => { 
"version' => 'R1933', 
"search' => ['Matteuksen', 'Teot'] 
b 
'Swedish' => { 
'version' => 'SVL', 
'search' => ['Matteus', 'Apostlagärningarna'] 
}, 
"Norwegian' => { 
"version' => 'DNB1930', 
"search' => ['Matteus', 'Apostlenes-gjerninge' ] 
} 
} 


languages.each do |language, search_pattern| 
text = '' 


search_pattern['search'].each_with_index do |search, i] 
1.upto(28).each do |page| 
puts "Querying #{language} #{search} chapter #{page}" 
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uri = [ 
url, 
URI.encode_www_form({ 
search: "#{URI.escape(search) }+#{page}", 
version: "#{search_pattern.fetch('version')}" 
}) 
].join('?') 
puts uri 
doc = Nokogiri: :HTML. parse(open(uri) ) 
doc.css('.passage p').each do |verse| 
text += verse.inner_text.downcase.gsub(/[\d,;:\\\-\"]/,'') 
end 
end 
File.open("#{language} #{i}.txt", 'wb') {|f| f.write(text)} 
end 
end 


的 语言 版 本 ! 


这 上 段 程序 可 下 载 并 保存 Acts fe Matthew 中 诗句 的 多 语言 版 本 。 你 可 尽情 地 去 尝试 更 多 


7.4.1 为 语言 编写 接 颖 测试 


为 读 取 训练 数据 ， 我 们 需要 构建 一 个 类 来 解析 输入 ， 并 作为 神经 网 络 的 接口 。 为 此 ， 我 们 
将 这 个 类 的 名 称 定 为 Language。Language 类 的 目的 是 读 取 一 个 用 某 种 语言 编写 的 文本 文 
件 ， 并 求 出 其 字符 频率 的 分 布 。 必 要 时 ，Language 类 将 输出 一 个 这 些 字符 的 频率 向 量 ， 该 


向 量 各 分 量 之 和 为 1。 我 们 的 全 部 输入 都 介 于 0~1 之 间 。 参 数 包括 : 


。 我 们 希望 确保 数据 是 正确 的 ， 且 和 为 1; 
。 我 们 希望 数据 中 不 包含 UTF-8 编码 的 空格 或 标点 符号 ; 
。 我 们 希望 所 有 的 字符 均 为 小 写 。A 应 转换 为 4a， 而 A 应 转换 为 i。 


这 将 有 助 于 保证 输入 为 文本 文件 、 输 出 为 散 列 数组 的 Language 类 的 正确 性 : 


# encoding: utf-8 
# test/lib/language_spec.rb 


require ''spec_helper' 
require 'stringio' 


describe Language do 
Llet(:language_data) { 

<<-EOL 
abcdefghijklLmnopqrstuvwxyz. 
ABCDEFGHIJKLMNOPQRSTUVWXYZ. 
\uQ0A0. 
1~@HS\%8*()_\4! 2D] ""' '—<earc-,,/. 
ïiëéüòèöÄÖRÜøæäÅøóqatżŻśęńŚćźt. 
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EOL 
} 


let(:special_characters) { language_data.split("\n").last.strip } 
let(:language_io) { StringIO.new(language_data) } 
let(: language) { Language.new(language_io, 'English') } 


it 'has the proper keys for each vector' do 


lLanguage.vectors.first.keys.must_equal ('a'..'z').to_a 
Language.vectors[1].keys.must_equal ('a'..'z').to_a 
special_chars = "1ééUidedadRigedaddgtzzSenséz".split(//).uniq.sort 


language.vectors.last.keys.sort.must_equal special_chars 
end 


it 'sums to 1 for all vectors' do 
language.vectors.each do |vector | 
vector.values.inject(&:+).must_equal 1 
end 
end 


it ‘returns characters that is a unique set of characters used' do 
chars = ('a'..'z').to_a 
chars.concat "(ééUdedddRtigxgaddatzzSenséz".split(//).uniq 


lLanguage.characters.to_a.sort.must_equal chars.sort 
end 
end 


此 时 ， 我 们 尚未 开始 实际 编写 Language 类 ， 因 此 所 有 的 测试 均 会 失效 。 对 于 第 一 个 目 
标 ， 我 们 需要 统计 所 有 字母 字符 的 出 现 次 数 ， 并 停留 在 某 个 句子 上 。 完 成 此 功能 的 代码 
大 致 如 下 : 


# encoding: utf-8 
# lib/language.rb 


class Language 
attr_reader :name, :characters, :vectors 
def initialize(language_io, name) 
@name = name 
@vectors, @characters = Tokenizer.tokenize(language_io) 
end 
end 


# lib/tokenizer.rb 
module Tokenizer 


extend self 
PUNCTUATION = %w[~ @#$5%*%&*()_4#'[T]""''—<>»«r¢-,/] 
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SPACES = [" ", "\ud0A0", "\n"] 
STOP_CHARACTERS = ['.', '2', '!'] 


def tokenize(blob) 
unless blob.respond_to?(:each_char) 
raise ‘Must implement each_char on blob' 
end 


vectors = [] 
dist = Hash.new(0) 


characters = Set.new 
blob.each_char do |char| 
if STOP_CHARACTERS. include? (char ) 
vectors << normalize(dist) unless dist.empty? 
dist = Hash.new(0) 
elsif SPACES.include?(char) || PUNCTUATION. include? (char) 


else 
character = char.downcase.tr("AAUOEISzt", "aadoéiszt") 
characters << character 
dist[character] += 1 
end 
end 
vectors << normalize(dist) unless dist.empty? 


[vectors, characters] 
end 
end 


现在 ， 我 们 已 经 拥有 了 部 分 能 够 工作 的 代码 。 此 外 还 有 一 些 有 趣 的 地 方 值 得 我 们 注意 。 首 
先 ， 像 入 这 样 的 特殊 字符 没有 被 转 为 小 写 i。 为 此 ， 必 须 使 用 String#tr， 其 次 ， 存 在 
Unicode 空格 ， 它 可 表示 为 \u00a0。 


至 此 ， 我 们 遇 到 了 一 个 新 问题 ， 即 所 有 数据 之 和 并 不 为 1。 我 们 将 引入 一 个 新 的 函数 
nomralize， 该 函数 接收 一 个 散 列 值 ， 并 将 x/sum(x) 运用 于 所 有 的 值 。 请 注意 ， 我 使 用 了 
Rational, XÆ Ruby 1.9.x 中 的 新 特性 ， 它 能 够 增强 计算 的 可 靠 性 ， 且 只 在 必要 时 方 进 行 
浮 点 运算 : 


# lib/tokenizer.rb 


module Tokenizer 


# 符号 化 


def normalize(hash) 
sum = hash.values.inject(&:+) 
Hash[ 
hash.map do |k,v| 
[k, Rational(v, sum)] 
end 


] 
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end 
end 


Be, Language 类 已 圆满 实现 。 对 于 作为 神经 网 络 接口 的 类 ， 我 们 已 经 介绍 了 完整 的 测 
试 。 现 在 我 们 开始 构建 Network 类 。 


7.4.2 网络 类 的 交叉 验证 

我 从 《和 圣 经》 中 获取 用 于 语言 分 类 的 训练 数据 ， 因 为 它 是 史上 译本 最 多 的 著作 。 有 具体 而 
言 ， 我 决定 下 载 Matthew 和 Acts 的 英语 版 、 芬 兰 语 版 、 德 语 版 、 挪 威 语 版 、 波 兰 语 版 以 
及 瑞典 语 版 。 来 自 Acts 和 Matthew 的 文本 形成 了 数据 集 的 一 种 自然 划分 ， 我 们 对 从 Acts 
训练 得 到 的 模型 定义 了 12 项 测试 ， 并 将 它 与 Matthew 数据 的 结果 对 比 ， 然 后 反 过 来 再 次 
观察 。 


# test/cross_validation_spec.rb 
# encoding: utf-8 


require 'spec_helper' 


# 该 散 列 对 网 络 进行 了 缓存 ,以 加 速 测试 过 程 ,这 一 点 很 重要 


networks = {} 


describe Network do 
def Language_name(text_file) 
File.basename(text_file, '.txt').split('_').first 
end 


def compare(network, text_file) 
misses = 0.0 
hits = 0.0 


file = File.read(text_file) 


file.split(/[\.!\?]/).each do |sentence| 
sentence_name = network.run(sentence).name 


if sentence_name == Language_name(text_file) 
hits += 1 
else 
misses += 1 
end 
end 


total = misses + hits 


assert( 
misses < (0.05 * total), 
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"#{text_file} has failed with a miss rate of #{misses / total}" 


) 


end 


def load_glob(glob) 
Dir[File.expand_path(glob, _ FILE _)].map do |m] 
Language.new(File.open(m, 'r+'), Language_name(m)) 
end 
end 


let(:matthew_languages) { load_glob('../../data/*_0.txt') } 
let(:acts_Languages) { load_glob('../../data/*_1.txt') } 


Let(:matthew_verses) { 


networks[:matthew] | |= Network.new(matthew_Languages).train! 
networks[ :matthew] 

} 

let(:acts_verses) { 
networks[:acts] | |= Network.new(acts_Languages).train! 
networks[:acts] 


} 


%w[English Finnish German Norwegian Polish Swedish].each do |lang| 
it "Trains and cross-validates with an error of 5% for #{lang}" do 
compare(matthew_verses, "./data/#{lang}_1.txt") 
compare(acts_verses, "./data/#{lang}_0.txt") 
end 
end 
end 


在 这 个 项 目的 根 目 录 中 有 一 个 名 为 data 的 文件 夹 ， 其 中 包含 了 形式 为 Language_0.txt 和 
Language_1.txt 的 文件 ， 其 中 Language 为 语言 名 称 ，_9 为 映射 到 Matthew 的 索引 ， 而 _1 
为 映射 到 Acts 的 索引 。 


训练 神经 网 络 需要 一 定 的 时 间 ， 因 此 我 只 训练 了 两 个 网 络 模型 ， 一 个 从 Acts 
的 章节 中 习 得 ， 而 另 一 个 从 Matthew 的 章节 中 习 得 。 此 时 ， 我 们 定义 了 12 
项 测试 。 当 然 ， 由 于 我 们 尚未 编写 Network 类 ， 因 此 训练 还 无 从 谈 起 。 为 实 
现 Network 类 ， 我 们 先 定义 一 个 能 够 接收 Language 类 的 数组 的 初始 版 本 。 
其 次 ， 由 于 我 们 不 希望 手工 编写 所 有 的 神经 网 络 训练 代码 ， 所 以 我 们 打算 使 
用 一 个 名 为 Ruby-Fann 的 库 ， 该 库 提供 了 FANN 的 接口 。 我 们 最 初 的 主要 目 
标 是 获得 一 个 能 够 接收 输入 并 进行 训练 的 神经 网 络 。 


对 之 前 的 测试 进行 填充 ， 我 们 可 用 如 下 方式 来 构建 网 络 对 象 : 
# lib/network.rb 


require 'ruby-fann' 
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class Network 
def initialize(languages, error = 0.005) 
@languages = Languages 
@inputs = @languages.map {|l| L.characters.to_a }.flatten.uniq.sort 


@fann = :not_ran 
@trainer = :not_trained 
@error = error 

end 

def train! 


build_trainer! 
build_standard_fann! 
@fann.train_on_data(@trainer, 1000, 10, @error) 
self 

end 


def code(vector) 
return [] if vector.nil? 
@inputs.map do |i] 
vector.fetch(i, 0.0) 


end 

end 

private 

def build_trainer! 
payload = { 


:inputs => [], 
:desired_outputs => [] 


} 


@languages.each_with_index do |language, index| 
inputs = [] 
desired_outputs = [0] * @languages.length 
desired_outputs[index] = 1 


language.vectors.each do |vector | 
inputs << code(vector) 
end 


payLoad[:inputs].concat(inputs) 


lLanguage.vectors.length.times do 
payload[:desired_outputs] << desired_outputs 
end 
end 


@trainer = RubyFann: :TrainData.new(payload) 
end 


def build_standard_fann! 
hidden_neurons = (2 * (@inputs.length + @languages.length)) / 3 


@fann = RubyFann: :Standard.new( 
:num_inputs => @inputs. length, 
shidden_neurons => [ hidden_neurons ], 
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:num_outputs => @languages. length 


) 


# 注意 , 库 将 ELLiott 拼 写 错 了 
@fann.set_activation_function_hidden(:elliot) 


end 
end 
既然 我 们 已 经 拥有 了 合适 的 输入 和 输出 ， 模 型 已 经 建立 ， 我 们 应 当 运 行 完整 的 cross_ 


validation_testrb。 当 然 ， 还 存在 一 个 错误 ， 因 为 我 们 无 法 将 新 输入 送 入 该 网 络 。 为 解决 
这 个 问题 ， 我 们 需要 构建 一 个 名 为 #run 的 函数 。 至 此 ， 我 们 的 代码 已 经 可 以 工作 ， 如 下 
所 示 : 


# lib/network.rb 


require 'ruby-fann' 
class Network 

# initialize 

# train! 

# code 


def run(sentence) 


if @trainer == :not_trained || @fann == :not_ran 
raise ‘Must train first call method train!' 
else 


vectors, characters = Tokenizer.tokenize(sentence) 
output_vector = @fann.run(code(vectors.first)) 
@Languages[output_vector .index(output_vector .max) ] 
end 
end 
end 


从 这 里 开始 ， 事 情 变 得 有 趣 起 来 ， 我 们 发 现 德语 、 英 语 、 瑞 典 语 以 及 挪威 语 都 无 法 通过 测 
试 。 由 于 我 们 的 代码 已 经 可 以 工作 ， 现 在 我 们 开始 依据 单元 测试 来 对 神经 网 络 进行 调整 。 


虽然 我 们 将 标准 设 定 得 较 高 ， 但 可 通过 调 校 网 络 的 参数 来 达到 。 


7.4.3 神经 网 络 的 参数 调 校 

此 时 ， 我 们 已 将 激活 函数 改 为 Elliott 函数 ， 除 挪威 语 、 瑞 典 语 和 德语 外 的 结果 都 得 到 了 提 
升 。 英 语 的 正确 率 为 100%， 但 epoch 数 略 为 增加 。 将 内 部 错误 率 折 半 ， 降 至 0.005 是 我 们 
下 一 步 要 做 的 事情 ， 这 可 通过 将 @fann.train_on_data 的 最 后 一 个 参数 设 为 0.005 来 实现 。 
最 终 ， 我 们 将 实现 预 设 的 目标 。 


进一步 的 参数 调 校 留 给 你 作为 练习 。 你 可 尝试 不 同 的 激活 函数 ， 以 及 内 部 衰减 率 或 误差 。 
由 此 我 们 得 到 启发 : 通过 初始 测试 来 测定 准确 率 ， 可 尝试 多 种 方法 。 
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7.4.4 收敛 性 测试 

在 继续 之 前 ， 可 重 设 神经 网 络 类 的 最 大 epoch 数 ， 使 其 比 你 看 到 的 高 出 20%~50%， 以 确保 
目标 函数 的 下 降 趋 于 平稳 。 在 我 们 的 例子 中 ， 我 看 到 模型 训练 需要 花费 大 约 200 个 epoch, 
因此 我 将 最 大 epoch 数 重 设 为 300。 


7.4.5 神经 网 络 的 精度 和 查 全 率 
我 们 再 进一步 ， 当 我 们 在 产品 环境 中 部 署 这 上段 神经 网 络 代 码 时 ， 需 要 引入 精度 和 查 全 率 这 
两 种 度量 ， 并 追踪 其 随时 间 的 变化 ， 以 形成 信息 回路 。 这 些 度量 将 依据 用 户 输入 来 计算 。 


我 们 可 通过 在 用 户 接口 询问 预测 是 否 正 确 ， 来 测量 精度 和 查 全 率 。 从 文本 中 ， 我 们 可 以 捕 
捉 错误 的 和 正确 的 分 类 ， 并 在 下 次 训练 时 反馈 给 我 们 的 模型 。 


关于 精度 和 查 全 率 检测 的 更 多 细 方 ， 请 参阅 第 9 章 。 
在 产品 环境 中 ， 我 们 需要 检测 的 神经 网 络 性 能 指标 包括 分 类 的 次 数 以 及 出 错 的 次 数 。 


7.4.6 ”案例 总 结 

神经 网 络 算法 是 一 种 通过 和 迭代 实现 信息 映射 和 学 习 的 有 趣 方式 ， 对 于 将 句子 映射 为 语言 
这 个 示例 而 言 ， 它 有 很 好 的 表现 。 将 这 段 代 码 加 载 到 一 个 IRB 会 话 中 ， 当 我 输入 “meep 
moop” 时 ， 模 型 会 将 其 分 类 为 挪威 语 ! 请 自由 地 测试 这 些 代 码 。 


7.5 “小 结 


神经 网 络 算法 是 机 器 学 习 工 具 集 中 一 种 十 分 强大 的 工具 。 神 经 网 络 是 一 种 通过 函数 模型 对 
之 前 的 观测 进行 映射 的 方式 。 虽 然 它们 常 被 用 作 黑 箱 模型 ， 但 只 要 通过 一 点 点 数学 推导 和 
图 示 还 是 可 以 理解 的 。 你 可 利用 神经 网 络 还 完成 许多 任务 ， 如 将 字母 频率 映射 为 语言 ， 或 
手写 体检 测 。 有 很 多 问题 都 可 用 这 种 算法 来 求解 ， 而 且 关 于 这 个 话题 的 比较 深入 的 相关 书 
籍 也 越 来 越 多 。 任 何 由 Geoffrey Hinton 撰写 的 著作 或 文章 都 值得 一 读 ， 比 如 Unsupervised 


Learning: Foundations of Neural Computation (computaitonal Neuroscience) 。 


本 章 介绍 了 作为 人 脑 的 人 工 版 本 的 神经 网 络 ， 并 解释 了 它们 通过 加 权 函 数 对 输入 进行 汇总 
的 工作 原理 。 之 后 ， 这 些 加 权 国 数 的 输出 会 在 一 定 范围 内 归 一 化 。 许 多 算法 都 可 用 于 训练 
这 些 权 值 ， 但 最 流行 的 当 属 RProp 算法 。 最 后 ， 我 们 通过 一 个 将 句子 映射 为 语言 的 示例 对 
上 述 内 容 进行 了 总 结 。 


如 果 你 曾经 去 过 图 书馆 ， 想 必 已 经 接触 过 聚 类 。 杜 威 十 进 分 类 法 (Dewey Decimal System) 
便 是 聚 类 的 一 种 形式 。 杜 威 所 构建 的 这 个 分 类 法 用 大 量 粒度 逐渐 细 化 的 阿拉 伯 数 字 作 为 标 
记 符 号 ， 开 创 了 文献 分 类 法 的 新 纪元 。 


将 数据 点 或 书籍 分 组 ， 对 于 信息 组 织 很 有 用 。 由 于 我 们 不 清楚 图 书 应 当归 属 的 具体 类 别 ， 
因此 只 希望 将 它们 划分 为 若干 不 同 的 类 别 。 


这 种 类 型 的 问题 与 我 们 之 前 遇 到 的 大 不 相同 。 到 目前 为 止 ， 我 们 接触 的 全 部 问题 都 试图 找 
出 最 优 的 函数 逼近 ， 以 将 数据 分 配 到 某 个 数据 集 和 标签 。 现 在 ， 我 们 更 关心 数据 本 身 ， 而 
非 标签 。 


通过 本 章 的 学 习 ， 你 将 了 解 到 ， 聚 类 也 有 一 个 缺陷 ， 即 它 不 像 其 他 算法 那样 兼顾 多 种 不 变 
性 。 这 称 作 不 可 能 性 定理 (impossibility theorem) 。 


考虑 到 其 应 用 的 广泛 性 ， 本 章 将 先 对 聚 类 展开 一 般 性 的 讨论 ， 然 后 介绍 天 均值 聚 类 算法 和 
期 望 最 大 化 (Expectation Maximization, EM) 聚 类 算法 。 本 章 最 后 将 给 出 一 个 将 匣 士 乐 按 
曲 式 分 组 的 示例 。 


聚 类 算法 是 一 种 无 监督 学 习 问 题 ， 在 数据 分 组 方面 有 突出 的 表现 。 当 然 ， 在 
实际 运用 时 ， 这 类 算法 也 会 出 现 一 些 问题 ， 即 会 受到 不 可 能 性 定理 的 制约 。 
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对 于 许多 业务 和 市 场 营销 而 言 ， 将 人 们 划分 到 不 同 的 组 GE) 中 非常 有 意义 。 例 如 ， 你 的 
第 一 名 客户 与 你 的 第 一 万 名 客户 或 第 一 百 万 名 客户 不 同 。 将 不 同 的 用 户 定义 为 不 同 的 组 ， 
这 一 过 程 十 分 常见 。 如 果 我 们 打算 依据 行为 或 注册 时 间 将 客户 有 效 地 划分 到 不 同 的 组 中 ， 
则 可 通过 将 营销 策略 多 样 化 来 为 他 们 提供 更 优质 的 服务 。 


但 这 类 问题 的 难点 在 于 ， 我 们 缺少 客户 组 的 预定 义 标 签 。 为 解决 这 个 问题 ， 你 可 查看 每 个 
人 在 何 年 何 月 成 为 客户 。 但 这 里 所 做 的 假设 是 ， 首 次 购买 的 时 间 是 对 用 户 进行 分 组 的 决定 
性 因素 。 如 果 首 次 购买 时 间 与 客户 是 否 属于 某 一 组 无 关 ， 应 如 何 处 理 ? 例如 ， 他 们 可 能 仅 
有 一 次 购物 行为 ， 或 者 此 后 进行 了 多 次 购买 。 

也 可 依据 我 们 对 用 户 的 了 解 来 对 其 分 组 。 例 如 ， 我 们 知道 他 们 的 注册 时 间 、 所 花费 的 金额 
以 及 最 喜欢 的 颜色 。 在 过 去 两 年 中 ， 仅 有 10 名 用 户 进行 了 注册 (希望 你 在 过 去 两 年 中 的 
注册 用 户 多 于 此 ， 这 里 做 此 假设 是 为 了 简化 问题 )。 表 8-1 展示 了 我 们 在 过 去 两 年 中 收集 到 
的 用 户 数据 。 

表 8-1: 过 去 两 年 间 收 集 到 的 用 户 数据 

ARID ”注册 时 间 tH ”最 喜欢 的 颜色 


1 Jan 14 $40 N/A 

2 Nov3 $50 橙色 

3 Jan 30 $53 绿色 

4 Oct 3 $100 品 红 

5 Feb 1 $0 蓝 绿色 

6 Dec 31 $0 紫色 

7 Sep 3 $0 浅 紫色 

8 Dec 31 $0 黄色 

9 Jan 13 $14 蓝 色 

10 Jan 1 $50 米黄 色 
给 定 这 些 数据 ， 我 们 希望 定义 一 个 从 每 个 用 户 到 一 个 组 的 映射 。 观 察 该 表 的 各 行 会 发 现 ， 
最 喜欢 的 颜色 属于 不 相关 数据 。 这 一 信息 无 法 提供 一 种 有 意义 的 方式 来 对 用 户 分 组 。 因 


此 ， 我 们 只 能 利用 花 销 和 注册 时 间 两 项 内 容 。 看 起 来 ， 有 一 组 用 户 产 生 了 开销 ， 而 另 一 
组 没有 。 在 注册 时 间 一 列 中 ， 你 会 发 现 有 很 多 用 户 在 年 初 和 年 末 以 及 九 月 、 十 月 或 十 一 
月 注册 。 


现在 ,我们 需要 确定 要 生成 的 簇 的 数目 。 由 于 我 们 的 数据 集 规 模 很 小 ， 因 此 我 们 只 将 其 分 
为 两 组 。 这 意味 着 我 们 可 将 用 户 分 为 如 表 8-2 所 示 的 两 个 组 。 


8-2; 对 原始 数据 集 手工 分 组 的 结果 


HAID GEAR ( 距离 1 月 1 日 的 天 数 ) AW 。 分 组 号 
1 Jan 14 (13) $40 1 
2 Nov 3 (59) $50 2 
3 Jan 30 (29) $53 1 
4 Oct 3 (90) $100 2 
5 Feb 1 (31) $0 1 
6 Dec 31 (1) $0 1 
了 Sep 3 (120) $0 2 
8 Dec 31 (1) $0 1 
9 Jan 13 (12) $14 1 
10 Jan 1 (0) $50 1 


我 们 已 将 用 户 分 为 两 组 : 第 一 组 中 包含 了 7 名 客户 ， 我 们 可 命名 为 “年 初 注册 ”组 ;第 二 
组 中 则 包含 了 另外 3 名 客户 。 


那么 ， 如 何 用 算法 化 的 方法 来 完成 该 任务 呢 ? 下 面 几 节 将 介绍 何 为 天 均值 聚 类 以 及 EM R 
类 算法 的 理论 意义 。 本 章 最 后 将 给 出 一 个 唱片 分 类 的 示例 。 


8.2 K 均 值 聚 类 


虽然 人 们 已 提出 大 量 聚 类 算法 ， 如 链接 聚 类 或 DIANA， 但 最 常用 的 聚 类 算法 之 一 仍 是 天 
均值 聚 类 。 利 用 一 个 预定 义 的 天 值 ， 即 希望 将 数据 划分 为 禾 的 数目 ,天 均值 聚 类 算法 可 找 
到 各 簇 的 最 优质 心 。K 均值 聚 类 的 最 佳 特质 是 各 徐 在 本 质 上 呈 紧 致 的 球状 分 布 ， 且 总 会 收 
APENE 


接 下 来 简要 介绍 天 均值 聚 类 的 工作 原理 。 


8.2.1 KHE 

天 均值 算法 首先 从 某 个 基本 配置 开始 。 该 算法 随机 从 数据 集中 选择 玉 个 数据 点 ， 并 将 其 定 
义 为 各 徐 的 质心 。 接 着 ， 将 数据 集中 的 每 个 点 分 配 到 与 每 个 不 同 的 质心 距离 最 近 的 那个 禾 
中 。 这 样 ， 我 们 便 得 到 了 一 个 由 初始 随机 质心 确定 的 聚 类 结果 。 但 这 显然 不 是 我 们 想 要 的 
结果 ， 因 此 我 们 重新 计算 各 徐 的 均值 来 更 新 质心 。 然 后 ， 我 们 重复 上 述 过 程 ， 直 到 质心 的 
位 置 不 再 发 生变 动 为 止 (参见 图 8-1). 


ve 
m 
7 


8-1: K 均 值 聚 类 的 结果 中 各 簇 呈 球状 分 布 
天 均值 中 的 距离 可 用 不 同 的 方式 (第 3 章 曾 介绍 过 ) 来 计算 : 
。 曼哈顿 距离 


n 


dmanhattan (x, y) = > 


i=1 


deuclid (x, y) = [dew 
i=1 


1 


d(x,y) = ( Xi— yi 


Xi — Yi 


。 KASS 


e Minkowski 距 离 


e Mahalanobis 距 离 


d(x,y) = 


“(xi — yi)” 
ee 


8.2.2 ”KK 均 值 聚 类 的 缺陷 
天 均值 聚 类 算法 的 缺陷 是 各 复 之 间 必 须 存在 一 个 “ 硬 ” 边 界 。 这 意味 着 每 个 数据 点 只 能 属 
于 一 个 符 ， 无 法 跨越 两 个 徐 之 间 的 界限 。 此 外 , 天 均值 算法 适合 于 呈 球 状 分 布 的 数据 ， 因 
为 大 多 数 情 况 下 人 们 采用 的 都 是 欧 氏 距离 。 在 像 图 8-1 这 样 的 数据 分 布 图 中 (位 于 中 间 的 
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8.3 EM 聚 类 算法 

EM 聚 类 算法 的 重点 不 是 如 何 找到 一 个 质心 ， 然 后 找到 与 其 相关 的 数据 点 ， 而 是 求解 另 一 
个 不 同 的 问题 。 比 如 你 希望 将 一 个 数据 集 分 为 两 部 分 : FR AUR 2。 你 希望 得 到 一 个 关于 
数据 是 否 在 某 个 徐 中 的 良好 估计 ， 但 并 不 关心 其 中 是 否 存在 模糊 性 。 我 们 真正 希望 获得 的 
是 一 个 数据 点 属于 各 徐 的 概率 值 ， 而 非 分 配 结果 。 


与 专注 于 确定 各 得 之 间 边 界 的 天 均值 聚 类 算法 不 同 ，EM 聚 类 对 于 可 能 同属 于 多 个 徐 的 数 
据点 具有 一 定 的 稳健 性 。EM 聚 类 算法 非常 适用 于 对 不 存在 明确 边界 的 数据 进行 分 类 。 


在 开始 执行 EM 聚 类 时 ， 我 们 先 构造 一 个 向 量 ，z=<0.5, 0.3>， 它 保存 的 是 行 向 量 大 属于 各 
徐 的 概率 。 经 过 若干 轮 和 迭代 ， 我 们 发 现 结果 变 为 z=<0.9, 0.1>。 设 想 你 有 大 量 数 据点 ， 我 
们 并 不 像 之 前 那样 用 圆圈 ， 而 是 用 阴影 来 标识 各 徐 。 颜 色 越 深 表示 属于 第 2 ERY AT REE 
越 大 ， 而 浅 灰 色 表 示 第 1f, WE 8-2 所 示 。 


à à 
aaa, 
a. a 
全 a 
i a 
Aaa 


图 8-2: EM RARAS HAA ARO LAA ARF OBA 
EM 算法 涉及 两 个 步骤 : 计算 期 望 和 将 期 望 最 大 化 。 


计算 期 望 是 给 定数 据 的 分 布 和 初始 z， 计 算 概率 值 。 我 们 依据 对 参数 9 的 当前 估计， 计算 
关于 条 件 分 布 ZIX 的 对 数 似 然 函数 : 


0(0|0) = EzixologL (0:X,2) 


接 下 来 ， 将 期 望 最 大 化 ， 即 找到 给 定 9 时 能 够 使 关于 9 的 概率 最 大 化 的 参数 0,: 


0; = arg maxgQ (0 | 0) 
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EM 聚 类 算法 的 不 足 之 处 在 于 它 无 法 保证 收敛 性 ， 且 当 你 使 用 奇异 的 协 方差 映射 数据 时 ， 
它 可 能 会 来 回 震 荡 。 在 示例 分 析 一 市 中 ， 我 们 将 更 加 深入 地 探讨 与 EM 聚 类 算法 相关 的 问 
题 。 不 过 ， 我 们 首先 需要 讨论 所 有 聚 类 算法 所 共有 的 一 个 特征 一 一 不 可 能 性 定理 。 


8.4 不 可 能 性 定理 


天 下 没有 免费 的 午餐 ， 聚 类 算法 也 不 例外 。 我 们 虽然 能 够 借助 聚 类 算法 将 数据 点 映射 到 某 
些 徐 中 ， 但 这 是 有 代价 的 。 这 种 代价 可 由 Jon Kleinberg 所 提出 的 不 可 能 性 定理 来 概括 。 


该 定理 指出 ， 我 们 最 多 只 能 获得 下 列 属性 中 的 两 种 : 


。 丰富 性 
。 尺度 不 变性 
一 致 性 


丰富 性 是 指 存 在 某 个 距离 函数 ， 它 可 生成 任意 类 型 的 划分 。 直 观 上 看 ， 这 表示 一 个 聚 类 算 
法 能 够 创建 任意 类 型 的 从 数据 点 到 簇 的 映射 。 


尺度 不 变性 非常 好 理解 。 设 想 你 正在 构建 一 稻 火 箭 飞 船 ， 在 计算 中 你 使 用 的 单位 是 千 米 ， 
但 你 的 老板 要 求 你 将 单位 改 为 英里 。 这 种 单位 转换 不 存在 任何 问题 ， 你 只 需 将 所 有 的 相关 
量 除 以 某 个 常数 即 可 。 从 而 具有 了 尺度 不 变性 。 大 体 上 讲 ， 如 果 所 有 的 数字 都 乘 以 20， 则 
聚 类 得 到 的 签 不 会 有 任何 变化 。 


一 致 性 略为 微妙 。 与 尺度 不 变性 类 似 ， 如 果 我 们 将 同一 得 内 的 点 对 距离 减 小 或 增 大 ， 都 不 
会 影响 最 终 的 聚 类 结果 。 至 此 ， 你 可 能 已 经 理解 了 聚 类 并 不 像 你 最 初 设想 的 那样 出 色 。 这 
类 算法 存在 很 多 问题 ， 一 致 性 绝对 是 应 当 引 起 重视 的 问题 之 一 。 


K HERRI EM 聚 类 满足 丰富 性 和 尺度 不 变性 ， 但 不 具有 一 致 性 。 这 使 得 聚 类 测试 几乎 
不 可 能 实现 。 我 们 真正 能 够 进行 测试 的 唯一 途径 是 借助 经 验 和 示例 。 但 对 于 分 析 而 言 这 已 
经 足够 了 。 


在 下 一 节 中 ， 我 们 将 来 利用 天 均值 聚 类 和 EM 聚 类 来 分 析 事 士 乐 。 


8.5 音乐 归 类 

音乐 和 作曲 具有 悠久 的 历史 。 你 可 能 需要 获得 相关 的 专业 学 位 ， 并 对 音乐 理论 进行 研究 ， 
才能 对 这 些 乐 谱 进行 有 效 的 归 类 。 

音乐 归 类 的 方式 不 计 其 数 。 就 本 人 而 言 ， 我 通常 会 依据 艺术 家 的 名 字 对 唱片 进行 归 类 。 
但 不 同 的 艺术 家 可 能 经 常会 合作 。 其 他 人 则 倾向 于 依据 风格 进行 归 类 。 但 音乐 风格 非常 
广泛 ， 要 对 音乐 进行 有 效 归 类 绝 非 易 事 。 以 肿 士 乐 为 例 ， 从 蒙特 勒 二 士 音乐 节 (http:// 
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www.montreuxjazzfestival.com/en/about-montreux-jazz) KÆ, (RES BFE HR AY DLA f — 


具体 的 限定 。 


那么 我 们 如 何 有 效 地 构建 一 个 依据 作品 相似 性 自动 归 类 的 音乐 库 ? 


安装 说 明 


本 例 所 使 用 的 全 部 代码 均 可 从 GitHub 下 载 : https://github.com/thoughtfulml/ 


examples/tree/master/7-expectation-maximization-clustering。 


提供 充分 的 信息 (BRAID) 


在 本 节 中 ， 我们 将 首先 确定 数据 来 源 、 所 要 提取 的 属性 以 及 验证 的 依据 。 我 


们 还 将 讨论 为 什么 聚 类 虽然 理论 上 看 起 来 非常 完美 ， 但 实践 中 并 不 能 为 我 们 


由 于 Ruby 处 于 持续 的 变化 之 中 ， 因 此 要 想 获 悉 如 何 快速 上 手 这 些 例子 ， 
README 文件 无 疑 是 最 佳 选择 。 


下 面 我 们 分 别 利用 天 均值 聚 类 和 EM 聚 类 来 求解 这 个 问题 。 最 后 将 得 到 一 个 乐曲 的 软 聚 类 
结果 ， 我 们 可 利用 它 构建 一 个 音乐 的 分 类 法 。 


编写 聚 类 程序 时 ， 我 们 不 打算 使 用 测试 驱动 的 方法 ， 因 为 聚 类 这 个 问题 不 适 
合 进行 假设 检验 。 这 是 非常 关键 的 一 点 。 表 面 上 ， 聚 类 看 上 去 可 以 为 所 有 问 
题 提 供 优秀 的 解决 方案 ， 但 实际 上 ， 它 并 不 适合 对 我 们 的 假设 进行 检验 。 


通过 之 前 对 不 可 能 性 定理 的 讨论 ， 我 们 知道 要 想 获 得 一 个 同时 满足 一 致 性 、 
丰富 性 和 尺度 不 变性 的 聚 类 算法 是 不 可 能 的 (至 多 只 能 满足 其 中 两 点 )。 从 
许多 方面 来 看 ， 聚 类 方法 只 是 一 个 数据 分 析 工 具 ， 并 不 能 用 来 解决 我 们 希 户 


可 控 的 问题 。 


8.5.1 数据 收集 


从 12 世纪 至 今 ， 人 类 已 经 积累 了 规模 极其 可 观 的 音乐 数据 。 MP3、CD、 黑 胶 唱 片 以 及 手 


写 的 乐谱 ， 种 类 繁多 。 我 们 并 不 打算 对 所 有 的 音乐 数据 进行 分 类 ， 而 是 从 中 挑选 一 个 规模 


很 小 的 子 集 。 我 不 希望 卷 入 任何 版 权 纠 纷 ， 


因此 我 们 将 仅 使 用 唱片 集中 的 公开 信息 ， 包 括 


艺术 家 、 歌 曲名 、 风 格 (如 果 有 的 话 ) 以 及 我 们 能 够 在 音乐 中 找到 的 其 他 特征 。 为 此 ， 我 
们 将 访问 Discogs.com 所 收集 的 信息 ， 其 中 包括 大 量 孙 音 和 歌曲 的 XML 数据 转 储 。 


另外 ， 我 们 并 不 打算 对 已 有 的 全 部 唱片 集 进 


FRE, Te AER. KEBAB E 
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因此 ， 为 了 获取 数据 集 ， 我 依据 http://www.scaruffi.com/jazz/best100.html 网 站 下 载 了 最 受 
Wot AY BFE RM AB 


这 些 数据 的 发 行 时 间 范 围 为 20 世纪 40 年 代 至 21 世纪 初 。 我 一 共 下 载 了 约 1200 张 不 同 的 
唱片 。 这 是 一 个 规模 多 么 庞大 的 唱片 集 ! 


但 其 中 的 信息 尚 不 充分 。 此 外 ， 我 利用 Discogs API 对 这 些 唱 片 进行 了 信息 标注 ， 以 确定 
每 张 露 士 乐 唱片 的 风格 。 


对 原始 数据 集 标注 完成 之 后 ， 我 发 现 与 事 士 乐 有 关 的 音乐 风格 共有 128 种 (至少 是 依据 
Discogs) ， ML See IRE, 其 范围 极为 广阔 。 


8.5.2 ”用 /均值 聚 类 分 析 数 所 
如 同 使 用 天 近邻 算法 一 样 ， 我 们 也 需要 预先 确定 一 个 最 优 的 玉 值 。 不 幸 的 是 ， 对 于 聚 类 ， 
我 们 所 能 做 的 测试 不 多 ， 只 能 简单 地 查看 是 否 可 将 数据 集 分 为 两 个 不 同 的 秘 。 


假设 我 们 希 
数据 集 进行 聚 


要 完成 聚 类 ， 只 需 写 极 少量 的 代码 ， 因 为 我 们 可 利用 ai4r gem 所 提供 的 功能 


望 将 所 有 的 唱片 上 架 ， 而 书架 上 共有 25 个 格子 。 我 们 可 将 KK 取 为 25， 然 后 对 
FRE 
RK 


# lib/kmeans_clusterer.rb 


require 'csv' 
require 'ai4r' 


data = [] 

artists = [] 

CSV.foreach('./annotated_jazz_albums.csv', :headers => true) do |row| 
@headers ||= row.headers[2..-1] 


artists << row['artist_album' ] 
data << row.to_h.values[2..-1].map(&:to_i) 
end 


ds = Ai4r::Data::DataSet.new(:data_items => data, :data_labels => @headers) 
clusterer = Ai4r::Clusterers: :KMeans.new 
clusterer.build(ds, 25) 


CSV.open(''./clustered_kmeans.csv', 'wb') do |csv| 
csv << %w[Lartist_album year cluster] 
ds.data_items.each_with_index do |dd, i| 
csv << [artists[i], dd.first, clusterer.eval(dd) ] 
end 
end 


没 错 ， 就 是 这 么 简单 ! 当然 ， 如 果 不 观察 输出 结果 ， 聚 类 算法 便 毫 无 意义 。 这 段 代 码 的 确 


可 以 将 数据 划分 到 25 个 类 别 中 ， 但 ; 


这 些 类 别 反 映 了 什么 样 的 信息 呢 ? 
出 非常 有 趣 的 结果 。 


图 8-3 制 了 年 份 与 禾 的 关系 ， 呈 现 
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HEARRE he 到 了 大 约 
世纪 90 年 代 ， 士 乐 开始 降温 。 


我 们 的 聚 类 结果 居然 与 荔 士 乐 的 历史 保持 了 惊人 的 同步 ， 这 是 多 么 奇妙 的 一 件 事 ! 
如 有 果 我 们 利用 EM 聚 类 算法 ， 会 得 到 什么 样 的 结果 ? 


这 个 时 期 的 匣 士 乐 几乎 都 位 于 同一 个 复 中 。 此 后 ， 它 
1959 年 ， 它 开始 朝 着 许多 不 同 的 方向 发 展 ， 一 直到 20 


Ya 
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8.5.3 EM 聚 类 
使 用 EM 聚 类 算法 时 ， 请 牢记 我 们 依 某 个 概率 对 数据 所 属 的 簇 进 行 分 配 ， 不 存在 100% 属 
于 某 个 徐 的 数据 。 对 于 我 们 而 言 ， 这 是 极 有 价值 的 ， 因 为 有 太 多 的 萎 士 乐 跨 界 了 。 


由 于 Ruby gem 中 没有 相应 的 EM 聚 类 实现 ， 因 此 下 面 我 们 来 编写 一 个 自己 的 版 本 。 


下 面 我 们 来 一 步 步 构建 自己 的 gem， 并 利用 它 对 从 萎 士 乐 数据 集中 选取 的 同一 批 数 据 进行 
映射 。 


第 一 步 是 初始 化 各 徐 。 请 牢记 ， 你 需要 维护 一 组 服从 均匀 分 布 的 指示 变量 Z:。 这 些 变量 所 
记录 的 是 每 个 数据 点 属于 各 个 徐 的 概率 。 为 此 ， 我 们 有 : 


# lib/em_clusterer.rb 
require 'matrix' 


class EMCLlusterer 
attr_reader :partitions, :data, :labels, :classes 


def initialize(k, data) 


@k =k 

@data = data 

setup_cluster! 
end 


def setup_cluster! 
@labels = Array.new(@data.row_size) { Array.new(@k) { 1.0 / @k }} 


@width = @data.column_size 
@s = 0.2 


pick_k_random_indices = @data.row_size.times.to_a.shuffle.sample(@k) 


@classes = @k.times.map do |cc| 
{ 
:means => @data.row(pick_k_random_indices.shift), 
:covariance => @s * Matrix.identity(@width) 
} 
end 
@partitions = [] 
end 
end 


至 此 ， 我 们 已 经 完成 了 基础 代码 的 编写 。 我 们 有 ek， 徐 的 数目 ，edata， 我 们 希望 对 其 进 
行 聚 类 的 数据 ，@labels， 一 个 由 概率 构成 的 数组 ， 每 行 表示 当前 行 所 代表 的 数据 属于 各 个 
矮 的 概率 ，@classes， 记 录 了 各 矮 的 均值 和 方差 .表明 了 各 矮 的 数据 分 布 情况 。 此 外 ， 还 
有 epartitions， 每 一 行 都 标识 了 一 个 数据 点 最 终 的 禾 归 属 。 


现在 我 们 需要 计算 期 望 ， 即 确定 每 个 数据 行 对 各 簇 的 概率 。 为 此 ， 我 们 需要 编写 一 个 新 方 
法 expect: 


fe 
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# lib/em_clusterer.rb 


class EMClusterer 
# initialize 
# setup_cluster! 


def expect 
@classes.each_with_index do |klass, i| 
puts "Expectation for class #{i}" 


inv_cov = if klass[:covariance].regular? 

klass[:covariance].inv 
else 

puts "Applying shrinkage" 

(klass[:covariance] - (0.0001 * Matrix.identity(@width) )).inv 
end 


d = Math: :sqrt(klass[: covariance] .det) 


@data.row_vectors.each_with_index do |row, j| 
rel = row - klass[:means] 


p = d * Math::exp(-0.5 * fast_product(rel, inv_cov)) 
@labels[j][i] = p 
end 
end 


@labels = @labels.map.each_with_index do |probabilities, i 
sum = probabilities.inject(&:+) 


@partitions[i] = probabilities.index(probabilities.max) 


if sum.zero? 
probabilities.map { 1.0 / @k } 
else 
probabilities.map {|p| p / sum.to_f } 
end 
end 
end 


def fast_product(rel, inv_cov) 
sum = 0 


inv_cov.column_count.times do |j| 
local_sum = 0 


(9 ... rel.size).each do |k] 
local_sum += rel[k] * inv_cov[k, j] 

end 
sum += local_sum * rel[j] 

end 

sum 

end 
end 


aa 
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差 矩 阵 以 及 协 方差 矩阵 的 行列 式 。 对 于 每 一 行 ， 我 们 都 计算 出 一 个 与 当前 行 所 对 应 数据 位 
于 某 个 徐 的 概率 成 比例 的 值 : 


py = det(C)e 7E E 
这 实际 上 是 一 个 高 斯 距离 度量 ， 可 帮助 我 们 确定 我 们 的 数据 偏离 均值 的 情况 。 


假设 行 向 量 等 于 均值 ， 则 意味 着 该 值 简 化 为 m = det(C) ， 即 协 方 差 矩 阵 的 行列 式 。 这 实 
际 上 是 该 函数 能 够 取得 的 最 大 值 。 如 果 行 向 量 远 离 均值 向 量 ， 则 由 于 指数 为 负 ，p, 将 变 得 
很 小 很 小 。 


好 处 是 这 个 值 与 行 向 量 到 均值 的 高 斯 概率 成 正比 。 由 于 这 里 只 是 成 正比 ， 而 非 相 等 ， 因 此 
需要 归 一 化 ， 以 使 其 和 为 1。 


你 可 能 也 注意 到 了 最 后 一 点 : fast_product 方法 的 引入 。 这 是 因为 Ruby 的 矩阵 运算 效率 
很 低 ， 且 和 矩阵 是 使 用 Array 磐 套 构成 的 ， 内 存 效率 低下 。 在 本 例 中， 考虑 到 数据 维 数 和 规 
模 不 变 ， 我 们 可 对 其 进行 优化 。 


现在 ， 我 们 来 实现 期 望 最 大 化 : 
# lib/em_clusterer.rb 


class EMClusterer 
# initialize 
# setup_cluster! 
# expect 
# fast_product 


def maximize 
@classes.each_with_index do |klass, i| 
puts "Maximizing for class #{i}" 
sum = Array.new(@width) { 0 } 
num = 0 


@data.each_with_index do |row, j| 
p = @labels[j] [i] 


Q@width.times do |k] 
sum[k] += p * @data[j,k] 


end 


num += p 
end 


mean = sum.map {|s| s / num } 
covariance = Matrix.zero(@width, @width) 


@data.row_vectors.each_with_index do |row, j| 


-A 
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p = @labels[j] [it] 
rel = row - Vector[*mean] 
covariance += Matrix.build(@width, @width) do |m,n| 
rel[m] * rel[n] * p 
end 
end 


covariance = (1.0 / num) * covariance 


@classes[i][:means] = Vector[*mean] 
@classes[i][:covariance] = covariance 
end 
end 
end 


RIIKI BK classes 进行 遍历 。 首 先 构 造 一 个 名 为 sum 的 数组 ， 以 保存 数据 的 加 权 
和 。 从 这 时 起 ， 我 们 通过 归 一 化 来 构建 一 个 加 权 均 值 。 为 计算 协 方差 矩阵 ， 我 们 首先 从 一 
个 行 数 和 列 数 均 为 徐 的 宽度 的 零 方 阵 开 始 ， 然 后 对 所 有 row_vectors 进行 迭代 ， 并 为 该 矩 
阵 的 每 个 组 合 增 量 式 地 添加 行 向 量 和 均值 的 加 权 差 。 同 样 ， 此 后 需要 归 一 化 并 保存 。 


现在 我 们 来 实际 使 用 一 下 这 些 代码 。 为 此 ， 我 们 可 添加 两 个 辅助 方法 来 帮助 查询 数据 : 
# lib/em_clusterer.rb 


class EMClusterer 
# initialize 
# setup_cluster! 
# expect 
# fast_product 
# maximize 


def cluster(iterations = 5) 
iterations.times do |i| 
puts "Iteration #{i}" 
expect_maximize 
end 
end 


def expect_maximize 
expect 
maximize 
end 
end 


8.5.4 Ho RAEMRARAR 
我 们 再 回 到 用 EM 聚 类 算法 对 夯 士 乐 数据 聚 类 的 结果 。 为 进行 分 析 ， 可 运行 下 列 脚本 ， 


data = [] 


artists = [] 


se 
m 
E 


CSV. foreach('./annotated_jazz_albums.csv' 
@headers ||= row.headers[2..-1] 
artists << row['artist_album' ] 
data << row.to_h.values[2..-1].map(&:to 
end 


data = Matrix[*data] 


e = EMClusterer.new(25, data) 
e.cluster 


关于 EM 聚 类 算法 ， 我 们 首先 注意 到 的 是 它 的 运 


们 ， 在 对 大 量 数据 分 组 时 ， 使 用 EM RRHH 


=f 


I(T 
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sheaders => true) do |row| 


2 


i) 


效率 很 低 。 它 不 像 计算 新 的 质心 和 选 代 
F 销 是 很 大 的 。 奥 卡 姆 剃刀 准则 告诉 我 
不 是 一 个 很 好 的 选择 


你 还 会 注意 到 ，EM 算法 对 我 们 的 带 标注 的 萎 士 


o 


乐 数据 是 不 适用 的 。 这 是 因为 协 方差 是 奇 


异 的 。 这 并 不 是 一 件 好事 。 实 际 中 ， 出 于 这 个 原因 ， 这 个 问题 并 不 适合 使 用 EM 算法 来 求 
解 ， 因 此 我 们 需要 将 其 变换 为 一 个 完全 不 同 的 问题 。 


我 们 可 对 维 数 进行 压缩 ， 只 保留 按 索 引 序 


require 'csv' 


训 的 前 两 种 风格 : 


CSV.open('./less_covariance jazz_albums.csv', 'wb') do |csv| 
csv << %w[artist album key_index year].concat(2.times.map {|a| "Genre_#{a}" }) 


CSV.foreach('./annotated_jazz_albums.csv', 


:headers => true) do |row| 


genre_count = 0 
genres = Array.new(2) { 0 } 
genre_idx = 0 


row.to_h.values[4.. 
break if genre_idx == 2 
if g == '1' 
genres[genre_idx] = i 
genre_idx += 1 
end 
end 


next if genres.count {|a| a == 0 } == 


csv << [row['artist_album'], row['key_ 


-1].each_with_index do lg, il 


genres. length 


index'], row['year']].concat(genres) 


end 

end 
这 里 ， 我 们 基本 上 是 在 讲 ， 对 于 前 两 个 Genres， 我 们 为 其 分 配 一 个 风格 索引 ， 并 保存 。 接 
下 来 的 问题 是 ， 有 些 唱片 集 设 有 可 以 分 配 的 信息 ， 因 此 我 们 将 其 忽略 。 
至 此 ， 我 们 已 经 能 够 运行 聚 类 算法 ， 只 是 要 想 形 成 一 些 秒 非常 困难 。 这 是 使 用 EM 


RAGE — ARAKI. RAZAR, zE AA Dp Ta EEEE ER 
差 ， 而 无 法 求 着 。 我 将 此 作为 练习 留 给 你 ， 你 可 观察 程序 何 时 失效 ， 协 方差 矩阵 何 时 变 
得 不 可 逆 。 


8.6 小结 


聚 类 非常 有 用 ,但 由 于 它 是 无 监督 的 ， 因 此 可 控 性 较 差 。 考 虑 到 一 致 性 、 丰 富 性 和 尺度 不 
变性 无 法 求全 的 不 可 能 性 定理 ， 聚 类 在 许多 场景 中 又 显得 没有 价值 。 但 请 不 要 因此 便 对 聚 
RICK ab: 聚 类 对 于 数据 集 分 析 和 将 数据 划分 为 任意 数量 的 签 非 常 有 用 。 如 果 你 并 不 关 
心 数据 划分 的 过 程 ， 而 只 是 希望 将 数据 分 组 ， 则 聚 类 便 可 派 上 用 场 。 只 是 要 注意 ， 有 时 会 
出 现 一 些 非常 奇怪 的 情形 。 
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核 岭 回归 


回归 可 能 是 任意 机 器 学 习 工 具 集中 最 为 常见 的 工具 。 回 归 就 是 从 将 蕊 映射 为 了 的 数据 中 拟 
合 出 一 条 直线 。 你 可 能 已 经 接触 过 大 量 的 回归 问题 。 在 许多 方面 ， 回 归 都 是 对 最 常见 的 情 
形 和 基本 情形 进行 建 模 。 遂 过 本 章 的 学 习 ， 你 将 了 解 到 ， 线 性 回归 是 预测 数据 的 一 个 良好 
起 点 ， 但 当 你 试图 对 小 规模 或 非 线性 的 数据 集 建 模 时 ， 线 性 回归 将 会 迅速 失效 。 


我 们 首先 介绍 协同 过 着 问题 和 推荐 算法 ， 然 后 待 介绍 岭 回 归 时 再 详细 介绍 如 何 求 解 该 问 
题 。 最 后 ， 在 本 章 的 结尾 ， 我 们 将 通过 示例 确定 我 们 的 假设 是 否 成 立 。 


回归 ， 包 括 核 岭 回归 算法 ， 是 一 种 有 监督 学 习 算法 。 它 对 于 能 够 求解 的 问题 
限制 很 少 ， 但 更 擅长 使 用 连续 变量 。 这 种 算法 还 有 一 个 好 处 是 能 够 对 数据 进 
行 平 请 并 移 除 离 群 点 。 


9.1 协同 过 滤 


如 果 你 从 Amazon 网 站 购买 过 商品 ， 说 明 你 已 经 接触 过 协同 过 滤 算 法 了 。 对 于 Amazon, 
它 希 望 向 你 推荐 你 感 兴 趣 的 商品 ， 以 使 你 购买 更 多 的 商品 。 因 此 ， 假 设 你 购买 了 许多 啤 
酒 ， 则 向 你 推荐 一 些 啤酒 是 比较 好 的 选择 。 

但 协同 过 滤 的 真正 有 趣 之 处 ， 是 它 与 其 他 用 户 关联 的 方式 。 假 设 你 喜欢 喝 啤酒 ， 那 你 可 能 


也 喜欢 小 桶 、 杯 子 甚至 是 杯 热 。 即 便 你 没有 实际 购买 过 这 些 物品 ， 但 由 于 与 你 类 似 的 其 他 
用 户 (也 喜爱 喝 啤酒 ) 购买 了 它们 ， 因 此 你 也 很 可 能 喜欢 它们 。 
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协同 过 滤 的 图 形 化 表示 如 图 9-1 所 示 。 


你 Bob 
你 和 Bob 都 喜欢 啤酒 
ae 喜欢 小 桶 
喜欢 啤 喜欢 啤酒 
可 能 喜欢 杯子 


< 
— > 
一 > 


9-1: 你 和 Bob 都 喜欢 啤酒 ， 因 此 你 可 能 也 喜欢 小 桶 和 杯子 
任何 协同 过 着 算法 通常 都 由 两 部 分 构成 


。 找到 那些 与 你 有 相同 爱好 的 用 户 (例如 其 他 爱 喝 啤酒 的 人 ) ， 
。 利用 来 自 其 他 相似 用 户 的 评分 来 进行 推荐 。 


我 们 通常 可 通过 如 下 三 种 方式 来 解决 这 些 问 题 : 


。 暴力 法 ， 这 种 朴素 方法 的 时 间 复 杂 度 与 数据 规模 呈 指 数 增长 ; 

。 天 近邻 搜索 ， 第 2 章 已 介绍 过 ; 

。 回归 。 

暴力 法 是 一 种 基准 方法 。 你 可 遍历 所 有 可 能 的 连接 ， 以 对 用 户 生成 最 优 推 荐 。 但 考 
户 很 可 能 希望 每 个 页 面 中 都 有 大 量 推荐 商品 ， 这 种 策略 的 效率 势必 无 法 满足 要 求 。 
搜索 算法 效果 不 错 。 由 于 它 是 一 种 “懒惰 ” 的 方法 ， 因 此 它 没 有 前 期 的 计算 开销 ， 


虐 到 用 
KK 近邻 
但 与 J 


TT 


同时 ， 你 实际 上 是 对 数据 做 出 了 某 种 假设 ， 而 且 通 过 这 种 算法 除了 能 了 解 到 当前 用 


户 与 其 


他 天 个 用 户 相似 外 ， 并 不 会 产生 更 多 信息 。 


最 后 ， 回 归 方 法 可 生成 一 条 拟 合 了 特征 到 用 户 是 否 喜欢 某 种 商品 的 直线 。 这 种 方法 
在 于 ， 我 们 可 依据 回归 系数 来 确定 用 户 喜 欢 什 么 ， 并 利用 和 矩阵 代数 快速 求解 。 这 可 
好 的 方案 ， 而 且 非 常 简单 。 


9.2 ”应 用 于 协同 过 滤 的 线性 回归 


你 可 能 对 线性 回归 早 有 耳闻 。 其 思想 非常 简单 : 给 定 一 个 数据 集 ， 拟 合 出 逼近 这 些 
最 优 直 线 。 例 如 ， 我 们 希望 依据 身高 预测 体重 。 从 概念 上 ， 我 们 了 解 身高 和 体重 至 


的 优点 


mja 
能 是 最 


数据 的 


少 是 相 
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关 的 (参见 图 9-2)。 下 面 以 参加 2012 年 伦敦 奥运 会 的 11 000 名 运动 员 的 数据 为 例 。 


+ | ， a; . 
体重 = 身高 * [207 Ss | 
RAEE 会 运动 员 的 体重 和 身高 | 


=> 


(si 二 


150+ a $ l } 


体重 (F) 


100+ 


504 ` 


140 ' 160 ` 180 ' 200 930 
身高 (厘米 ) 


图 9-2: 体重 可 视 为 身高 的 函数 (可 拟 合 出 一 条 服从 数据 分 布 的 直线 ) 


这 是 有 意义 的 :如果 我 的 身高 为 5.6 寸 (1.68 米 ) ， 则 体重 很 可 能 不 到 200 磅 (91 千克 ) 。 
另 一 方面 ， 如 果 我 的 身高 为 6.8 寸 (2.03 米 )， 则 体重 可 能 超过 250 HF (113.4 FE). #4 
然 ， 这 需要 将 大 量 离 群 点 移 除 ， 但 这 是 完全 可 行 的 。 回 归 的 要 旨 在 于 回归 到 均值 ， 最 终 得 
到 的 那 条 直线 实际 上 代表 了 大 多 数 情 况 下 得 到 的 数据 点 的 均值 。 下 面 我 们 来 了 解 线性 回归 
的 一 些 技术 细节 ， 它 的 主要 目标 是 将 数据 的 均 方 误差 最 小 化 ， 即 : 


min), O — y)? 


其 中 ， y 为 回归 模型 的 输出 。 对 于 线性 回归 ， > 的 形式 为 》 = at Bix + fox. +++ + BrXne 
这 些 5 是 我 们 求 出 的 能 够 将 上 述 均 方 误差 最 小 化 的 系数 。 


线性 回归 模型 的 真正 威力 在 于 ， 为 找到 这 些 系 数 8， 我 们 只 需 对 原始 矩阵 进行 一 个 简单 的 
变换 。 
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利用 Moore-Penrose 伪 逆 ， 我 们 可 利用 下 式 求 得 上 述 优化 问题 的 解 : 


B= (x'xy X'y 


MARA Lit, BALA re VARs X BS i (即将 矩阵 的 第 j 个 元 素 与 第 j, i 个 元 素 
交换 ) ， 并 乘 以 自身 筷 该 乘积 总 是 一 个 方 阵 ， 我 们 可 利用 抑 阵 求 逆 来 得 到 其 逆 和 矩阵 〈 由 于 
超出 了 本 书 的 范围 ， 我 不 打算 介绍 其 中 的 实现 细节 )。 最 后 ， 我 们 将 这 个 逆 矩 阵 再 乘 以 训 
练 数据 的 转 置 。 最 终 得 到 一 个 能 够 最 优 地 匹配 训练 数据 的 系数 向 量 。 


该 公式 中 最 精彩 之 处 在 于 ， 你 可 有 效 地 得 到 一 个 给 定数 据 的 平均 解 。 假 设 现 有 一 个 一 维 问 
题 ， 数 据点 为 1、2、3、4、5、6， 我 们 的 目标 是 找到 一 个 最 优点 。 我 们 只 需 令 所 有 点 的 x 
坐标 为 1, y 坐标 为 1-6， 便 可 将 这 个 问题 映射 为 一 个 二 维 问题 。 对 于 该 问题 ， 找 到 的 6 值 


会 是 怎样 的 ? 


require 'matrix' 


Matrix[[1],[2],[3],[4],[5],[6]] 
Matrix[[1],[1],[1],[1],[1],[1]] 


y 
x 


(x. transpose * x).inverse * x.transpose * y #=> Matrix[[7/2]] 


这 样 便 可 得 到 均值 ! 这 里 再 一 次 说 明 ， 线 性 回归 所 做 的 不 过 是 回归 到 均值 。 


与 线性 回归 有 关 的 一 个 重要 问题 是 矩阵 与 其 自身 转 置 之 积 有 时 是 奇异 的 《〈 即 不 可 逆 )。 奇 
Se FER BR A ASIA] 〈iLL_conditioned) ， 这 是 因为 对 于 任意 方程 都 缺少 足够 的 数据 来 


得 到 一 个 合理 的 解 。 这 类 矩阵 的 行列 式 为 0。 
下 面 给 出 一 个 用 Ruby 代码 表示 奇异 矩阵 的 例子 : 


require 'matrix' 
y = Matrix[[1],[2]] 


ill_conditioned = Matrix[[1,2,3,4,5,6,7,8,9,10], [10,9,8,7,6,5,4,3,2,1]] 
(ill_conditioned.transpose * ill_conditioned).singular? #=> true 
(ill_conditioned.transpose * ill_conditioned).inverse #=> Throws an error 


conditioned = Matrix[[1,2], [2,1]] 

(conditioned.transpose * conditioned).inverse * conditioned.transpose * y #=> Ma 

trix[[(1/1)], [(0/1)]] 
这 里 所 展示 的 是 ， 如 果 你 像 第 一 个 病态 问题 一 样 拥有 大 量变 量 ， 则 利用 线性 回归 将 没有 合 
适 的 方法 来 求解 该 问题 ， 因 为 数据 点 的 数量 太 少 ， 不 足以 找到 最 优 的 最 小 二 乘 解 。 当 特征 
的 数量 多 于 数据 点 时 ， 内 部 矩阵 将 成 为 奇异 阵 。 


关于 这 个 问题 ， 我 们 不 妨 做 一 点 更 深入 的 思考 。 


fe 
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9.3 正则 化 技术 与 岭 回归 


上 述 病 态 回归 问题 可 用 表 9-1 概括 。 


Xi X X X, Xs Xe X7 Xs Xo Xio 
1 2 3 4 5 6 7 8 9 10 
10 9 8 7 6 5 4 3 2 1 


表 9-1: 病态 问题 
Y 

1 

2 


即便 没有 任何 算法 来 求解 这 个 问题 ， 我 们 也 能 从 中 看 出 有 大 量 数据 是 无 用 的 。 我 们 所 要 寻 
le aa are E 中 得 到 1、 在 第 二 种 情形 中 得 到 2 的 函数 ， 因 此 我 们 可 能 希望 
找到 2 倍 于 第 二 种 情形 而 1 倍 于 第 一 种 情形 的 信息 。 这 意味 着 像 X,、X,、X;、Xe、X。 和 
Xio 这 样 的 列 都 是 无 用 的 。 因此 我 们 将 之 移 除 ， 如 表 9-2 所 示 。 


表 9-2: 列 数 较 少 的 病态 问题 


Y CU N 
1 3 4 7 8 
2 8 7 4 3 


实际 上 ，X; 和 Xs 的 用 处 也 不 大 ， 因 此 我 们 将 它们 一 并 移 除 。 这 样 便 只 剩 下 X, M Xe H 
在 ， 我 们 可 这 样 来 求解 : 


require 'matrix' 


y = Matrix[[1],[2]] 
simplified = Matrix[[3,4], [8,7]] 


betas = (simplified.transpose * simplified).inverse * simplified.transpose * y 


# => Matrix[[(1/11)], [(2/11)]] 


这 个 问题 就 这 样 迎刃而解 ! 我 们 所 做 的 仅 是 将 一 些 设 有 关系 的 变量 移 除 。 但 问题 在 于 ， 我 
们 能 否 通过 某 种 算法 而 非 人 工 方式 来 自动 求解 ? 


是 的 ， 我 们 的 确 可 以 一 一 我 们 可 以 利用 一 种 称 为 核 岭 回归 (或 正则 化 回归 ) 的 算法 。 
该 算法 的 基本 思想 是 引入 一 个 岭 参数 ， 它 将 有 助 于 解决 我 们 之 前 遇 到 的 病态 问题 


require 'matrix' 
y = Matrix[[1],[2]] 
ill_conditioned = Matrix[[1,2,3,4,5,6,7,8,9,10],[10,9,8,7,6,5,4,3,2,1]] 


shrinkage = 0.0001 


left_half = ill_conditioned.transpose * ill_conditioned + shrinkage * Matrix.ide 
ntity(ill_conditioned.column_size) 
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left_half.singular? #=> false 
betas = left_half.inverse * ill_conditioned.transpose * y 


betas.transpose * ill_conditioned.row(@) #=> Vector[1.0000000549097194] 
betas.transpose * ill_conditioned.row(1) #=> Vector[1.9999994492261521] 


AUREL, FE nc He A BP BAT eR EENS RA, mE ee He Re 
病态 问题 。 但 此 时 仍 有 一 个 问题 有 待 解决 ， 即 非 线 性 。 


9.4 核 岭 回归 


在 第 6 章 中 我 们 曾 介绍 过 核 技巧 ， 它 可 将 非 线性 数据 变换 到 一 个 新 的 特征 空间 中 ， 使 其 成 
为 线性 数据 。 核 技巧 是 非常 强大 的 工具 ， 非 常 适用 于 求解 数据 非 线性 的 问题 。 


下 面 我 们 简要 回顾 一 下 第 6 章 介 绍 过 的 几 个 核 函数 : 


。 齐 次 多 项 式 
K(x) = x x)" 
。 FEARS RA 
K(x,%,) = (x) x +e)’ 
。 ee) Kh 


Ilx =x I 


K(x, x) =e 2*0 


这 里 需要 了 解 的 很 重要 的 一 点 是 ， 实 际 上 我 们 不 需要 进行 大 量 计算 ， 因 为 这 些 函 数 的 主要 
运算 来 自 XX， 而 这 个 量 是 可 以 事先 计算 好 的 。 大 体 上 说 ， 如 果 不 去 细 究 数学 细节 ， 我 们 
可 将 YX 记 为 K， 它 是 一 个 代表 了 新 的 非 线 性 空间 的 核 。 


这 样 ， 我 们 的 方程 看 起 来 都 很 相似 : 


y=y (K+AD Kk 
Ki i S(%,%;) 


k, = fxn x) 


这 只 是 一 点 改变 。 你 可 将 这 些 函 数 添 加 到 之 前 的 函数 中 ， 从 而 使 线性 回归 模型 拥有 了 核 函 
数 ， 这 与 第 6 章 的 用 法 很 像 。 


9.5 理论 总 总 结 
核 岭 回归 算法 可 用 于 找到 一 个 简单 函数 来 映射 一 个 病态 问题 。 在 下 一 节 中 ， 我 们 将 了 解 如 
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何 实际 使 用 该 算法 ， 依 据 用 户 在 评价 中 所 表达 的 偏好 向 他 们 推荐 不 同 风 味 的 啤酒 。 


一 | >} ~ 
9.6 用 协同 过 滤 推 荐 啤酒 风格 
你 是 否 还 记得 本 章 开头 提 到 的 用 协同 过 滤 向 爱 喝 啤酒 的 客户 推荐 商品 ”如 果 将 协同 过 滤 运 
用 于 关于 啤酒 风格 的 真实 数据 集 ， 应 如 何 实现 ? 所 有 的 评论 者 都 会 在 商品 评价 中 提 到 他 们 
是 否 喜欢 这 种 口味 、 外 观 及 其 他 属性 。 


96.1 数据 集 

我 们 所 使 用 的 数据 集中 包含 了 啤酒 风格 、 啤 酒 、 啤 酒 三、 评论 者 及 评论 。 共 有 1 586 615 
条 评价 ，62 260 种 不 同 的 啤酒 ，33 388 名 评论 者 、5734 家 啤酒 厂 以 及 104 种 不 同 的 啤酒 风 
格 。 在 此 之 前 ， 我 们 一 直 是 将 所 有 数据 都 加 载 到 内 存 中 ， 然 后 进行 分 析 ， 但 由 于 这 个 数据 
集 的 规模 较 大 ， 一 种 更 好 的 方法 是 将 这 些 信 息 加 载 到 某 种 类 型 的 数据 库 中 。 


安装 说 明 


本 例 中 使 用 的 所 有 代码 均 可 从 GitHub 获取 : https://github.com/thoughtfulml/ 


examples/tree/master/8-kernel-ridge-regression。 


由 于 Ruby 处 于 持续 变化 之 中 ， 因 此 要 想 获 悉 如 何 快速 上 手 这 些 例子 ， 
README 文件 无 疑 是 最 佳 选择 。 


为 何 用 回归 来 实现 协同 过 滤 ? 
如 果 你 阅读 过 其 他 机 器 学 习 或 数据 科学 方面 的 书籍 ， 可 能 并 不 清楚 回归 还 可 以 运用 到 
协同 过 滤 上 。 在 大 多 数 情况 下 ， 人 们 会 运用 一 种 称 为 矩阵 分 解 的 技术 来 进行 推荐 。 


本 例 中 我 们 之 所 以 使 用 回归 是 因为 它 非常 适用 于 确定 各 种 因素 的 线性 组 合 系数 ， 这 些 
因素 确定 了 某 人 的 购买 需求 。 其 好 处 是 ， 我 们 可 以 用 其 确定 某 人 的 人 和 偏好。 因此， 在 关 
于 啤酒 的 评价 中 ， 我 们 可 明确 某 人 是 喜欢 酒精 还 是 喜欢 某 种 口味 。 虽 然 我 们 也 可 以 利 
用 矩阵 分 解 来 完成 这 一 任务 ， 但 这 两 种 方法 还 是 存在 一 些 差异 的 。 


9.6.2 我们 所 需 的 工具 
为 了 实现 对 啤酒 风格 的 协同 过 滤 ， 我 们 需要 将 一 些 表 格 存 和 Postgres。 我 认为 对 于 像 我 们 
这 样 的 小 型 项 目 ，Sequel 要 比 ActiveRecord 易 用 得 多 ， 因 此 我 们 将 使 用 前 者 。 


首先 ， 我 们 来 定义 一 些 将 要 使 用 的 表格 和 模型 。 我 们 需要 关于 啤酒 、 评 价 、 评 论 者 、 啤 酒 
厂 以 及 啤酒 风格 的 表格 。 
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我 们 先 来 创建 文件 bootstrap， 以 确保 这 些 表格 存在 ， 且 所 有 数据 都 被 正确 地 迁移: 


# script/load_db.rb 


# 注意 ,这 里 并 非 只 能 为 Postgres ,你 也 可 以 使 用 sqlite 或 mysql 
DB = Sequel.connect('postgres://localhost/beer_reviews' ) 


DB.create_table? :beers do 
primary_key :id 
Integer :beer_style_id, :index => true 
Integer :brewery_id, :index => true 
String :name 
Float :abv 

end 


啤酒 拥有 的 属性 包括 beer_style_id, name, abv 以 及 brewery_id。 我 们 希望 这 些 信息 能 
够 问 外 扩展 ， 因 此 将 beer_style_id 作为 beer_style 的 外 键 ，abv 表示 酒精 的 体积 ， 而 
brewery_id 是 啤酒 厂 的 外 键 。 接 下 来 构建 自己 的 啤酒 厂 以 及 其 他 信息 : 


# script/load_db.rb 


# DB 
# create_table :beers 


DB.create_table? :breweries do 
primary_key :id 
String :name 

end 


DB.create_table? :reviewers do 
primary_key :id 
String :name 

end 


DB.create_table? :reviews do 
primary_key :id 
Integer :reviewer_id, :index => true 
Integer :beer_id, :index => true 
Float :overall 
Float :aroma 
Float :appearance 
Float :palate 
Float :taste 

end 


DB.create_table? :beer_styles do 
primary_key :id 
String :name, :index => true 
end 


现在 我 们 需要 加 载 这 些 信息 ， 可 通过 下 列 脚本 来 完成 : 
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# script/load_db.rb 

# DB 

# create_table :beers 

# create_table :breweries 
# create_table :reviewers 
# create_table :reviews 

# create_table :beer_styles 


require 'csv' 
require 'set' 


# brewery_id,brewery_name, review_time, review_overall, review_aroma, review_appeara 
nce, review_profilename, beer_style, review_palate, review_tast, beer_name, beer_abv,b 
eer_beerid 

breweries = { 
reviewers = { 
beer_styles = 


} 
} 
{} 


if !File.exists?('./beer_reviews/beer_reviews.csv') 

system('bzip2 -cd ./beer_reviews/beer_reviews.csv.bz2 > ./beer_reviews/beer_ 
reviews.csv') or die 
end 


CSV.foreach('./beer_reviews/beer_reviews.csv', :headers => true) do |line| 
puts line 
if !breweries.has_key?(line. fetch('brewery_name')) 
b = Brewery.create(:name => line. fetch('brewery_name')) 
breweries[line.fetch('brewery_name')] = b.id 
end 


if !reviewers.has_key?(line.fetch('review_profilename' )) 
r = Reviewer.create(:name => Line. fetch('review_profilename' )) 
reviewers[ line. fetch('review_profilename')] = r.id 

end 


if !beer_styles.has_key?(line.fetch('beer_style')) 
bs = BeerStyle.create(:name => Line. fetch('beer_style')) 
beer_styles[line.fetch('beer_style')] = bs.id 

end 


beer = Beer.create({ 
:beer_style_id => beer_styles.fetch(line.fetch('beer_style')), 
:name => Line.fetch('beer_name'), 
:abv => line.fetch('beer_abv'), 
:brewery_id => breweries.fetch(line. fetch('brewery_name')) 


}) 


Review. create({ 
:reviewer_id => reviewers.fetch(line.fetch('review_profilename')), 
:beer_id => beer.id, 
:overall => line. fetch('review_overall'), 
:aroma => Line. fetch('review_aroma'), 
:appearance => Line. fetch('review_appearance'), 
:palate => line.fetch('review_palate'), 


y 
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:taste => line. fetch('review_taste' ) 


}) 


end 


既然 我 们 已 经 加 载 了 数据 ， 接 下 来 便 可 利用 岭 回 归来 测试 和 构建 推荐 算法 。 


96.3 Wits 
我 们 要 做 的 第 一 步 是 快速 建立 所 有 模型 之 间 的 关联 ， 为 此 可 编写 下 列 代 码 : 


# lib/models/reviewer.rb 


class Reviewer < Sequel: :Model 
one_to_many :reviews 
one_to_many :user_preferences 
end 


# lib/models/brewery.rb 

class Brewery < Sequel: :Model 
one_to_many :beers 

end 


# lib/models/beer_style.rb 

class BeerStyle < Sequel: :Model 
one_to_many :beers 

end 


# lib/models/review. rb 

class Review < Sequel: :Model 
many_to_one :reviewer 

end 


# lib/models/user_preference.rb 
class UserPreference < Sequel: :Model 
many_to_one :reviewer 
many_to_one :beer_style 
end 


至 此 ， 我 们 需要 为 两 个 不 同 的 场景 编写 测试 。 第 一 个 场景 是 对 于 被 评价 的 每 个 风格 ， 我 们 
希望 为 其 赋予 一 个 非 零 常量 。 第 二 个 场景 是 我 们 希望 最 大 的 斜率 对 应 最 受 欢 迎 的 风格 ， 并 
且 最 小 的 斜率 对 应 受 欢迎 程度 最 低 的 啤酒 风格 。 


为 测试 计算 的 正确 性 ， 可 编写 下 列 代码 : 


# test/lib/models/reviewer_spec.rb 
describe Reviewer do 
let(:reviewer) { Reviewer.find(:id => 3) } 


it ‘calculates a preference for a user correctly' do 
pref = reviewer.preference 


reviewed_styles = reviewer.reviews.map {|r| r.beer.beer_style_id } 
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pref.each_with_index do |r,i| 
if reviewed_styles.include?(i + 1) 
r.wont_equal 0 
else 
r.must_equal 0 
end 
end 
end 
end 


我 们 只 假设 你 将 Reviewer 加 载 到 数据 库 中 ， 且 你 可 随机 选择 一 个 评论 者 进行 测试 ， 如 
id=3。 该 测试 将 确保 对 于 未 被 评价 的 风格 ， 只 有 0， 而 对 于 已 评价 的 风格 ， 则 为 非 零 常 量 。 


至 此 ， 我 们 可 对 实际 问题 进行 测试 ， 即 是 否 可 对 啤酒 风格 的 受 欢 迎 程度 进行 排序 。 我 们 通 
过 编写 下 列 代码 来 完成 该 任务 : 


# test/lib/models/reviewer_spec.rb 


describe Reviewer do 
let (:reviewer) { Reviewer.find(:id => 3) } 


# 测试 


it 'gives the highest rated beer_style the highest constant' do 
pref = reviewer.preference 


most_liked = pref.index(pref.max) + 1 
least_liked = pref.index(pref.select(&:nonzero?).min) + 1 


reviews = {} 
reviewer .reviews.each do |r| 


reviews[r.beer.beer_style_id] ||= [] 
reviews[r.beer.beer_style_id] << r.overall 
end 


review_ratings = Hash[reviews.map {|k,v| [k, v.inject(&:+) / v.length.to_ 


f] }] 
assert review_ratings.fetch(most_liked) > review_ratings.fetch(least_liked) 


best_fit = review_ratings.max_by(&: last) 
worst_fit = review_ratings.min_by(&: Last) 


assert best_fit.first == most_liked || best_fit.last == review_ratings[most_ 
liked] 
assert worst_fit.first == least_liked || worst_fit.last == review_ratings[le 
ast_liked] 
end 
end 


现在 ， 为 使 上 述 代 码 能 够 正常 工作 ， 我 们 当然 需要 编写 实际 的 代码 。 


9.6.4 编写 代码 确定 基 人 的 偏好 

我 们 要 利用 这 两 项 测试 解决 的 问题 是 ， 找 到 啤酒 风格 的 一 个 线性 组 合 ， 以 便 对 所 有 评分 进 
行 平均 。 总 共 约 有 104 种 啤酒 风格 ， 而 大 多 数 用 户 都 不 会 去 频繁 地 评价 。 因 此 ， 我 们 可 能 
会 得 到 一 个 奇异 阵 ， 而 回归 方法 可 能 无 法 使 用 。 因 此 ， 我 们 需要 构建 一 个 能 充分 压缩 这 个 
和 矩阵 以 使 其 可 逆 的 算法 。 我 们 通过 指数 规律 增长 收缩 系数 ， 直 到 和 矩阵 可 逆 为 目 。 


你 可 能 已 经 注意 到 ， 我 使 用 了 NMatrix 库 ， 它 是 NArray 的 一 个 子 集 。 这 纯粹 是 出 于 效率 
的 考虑 。 不 幸 的 是 ，Ruby 中 和 抑 阵 库 的 效率 非常 低 。 因 此 ， 当 计算 量 较 大 时 ， 我 们 需要 利用 
NMatrix 库 。 当 然 ， 这 个 库 也 有 一 些 缺 点 ， 即 它 只 是 对 NArray 进行 了 简单 的 包装 ， 并 不 具 
备 像 行 列 式 这 样 的 特性 或 其 他 简洁 的 工具 。 因 此 ， 我 创建 了 一 个 名 为 MatrixDeterminance 
的 类 ， 专 门 负 责 计 算 和 矩阵 的 行列 式 : 


# lib/matrix_determinance.rb 


require 'narray' 
require 'nmatrix' 


class MatrixDeterminance 
def initialize(matrix) 
@matrix = matrix 
end 


def determinant 
raise "Must be square" unless square? 
size = @matrix.sizes[1] 
last = size - 1 
a = @matrix.to_a 
No_pivot = Proc.new{ return © } 
sign = +1 
pivot = 1.0 
size.times do |k| 
previous_pivot = pivot 
if (pivot = a[k][k].to_f).zero? 
switch = (k+1 ... size).find(no_pivot) {|row| 
a[row][k] != 0 


a[switch], a[k] = a[k], a[switch] 
pivot = a[k][k] 
sign = -sign 
end 
(k+1).upto(last) do |i| 
ai = ali] 
(k+1).upto(last) do |j| 
ai[j] = (pivot * ai[j] - ai[k] * a[k][j]) / previous_pivot 


sign * pivot 
end 


-A 
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def singular? 
determinant == 0 
end 


def square? 
@matrix.sizes[0] == @matrix.sizes[1] 
end 


def regular? 
!singular? 
end 
end 


该 类 的 用 法 十 分 简单 ， 我 们 只 需 初始 化 一 个 新 的 MatrixDeterminance 对 象 ， 便 可 计算 矩阵 
是 否 奇异 ， 以 及 该 矩阵 的 行列 式 。 


现在 ， 我 们 利用 岭 回 归来 计算 用 户 的 偏好 : 
# lib/models/reviewer.rb 


class Reviewer < Sequel: :Model 
one_to_many :reviews 
one_to_many :user_preferences 


IDENTITY = NMatrix[ 
*Array.new(104) { lil 
Array.new(104) { |j| 
(i == j)? 1.0 : 0.0 
} 
} 
] 


def preference 
@max_beer_id = BeerStyle.count 
return [] if reviews.empty? 
rows = [] 
overall = [] 


context = DB.fetch(<<-SQL) 
SELECT 
AVG(reviews.overall) AS overall 
, beers.beer_style_id AS beer_style_id 
FROM reviews 
JOIN beers ON beers.id = reviews.beer_id 
WHERE reviewer_id = #{self.id} 
GROUP BY beer_style_id; 
SQL 


context.each do |review| 
overall << review. fetch(:overall) 
beers = Array.new(@max_beer_id) { 0 } 
beers[review.fetch(:beer_style_id) - 1] = 1 


rows << beers 
end 


x = NMatrix[*rows] 
shrinkage = 0 


left = nil 
iteration = 6 


xtx = (x.transpose * x).to_f 
left = xtx + shrinkage * IDENTITY 


until MatrixDeterminance.new(left).regular? 
puts "Shrinking iteration #{iteration}" 
shrinkage = (2 ** iteration) * 10e-6 


(left * x.transpose * NMatrix[overal1].transpose).to_a.flatten 
end 
end 
end 


ALAA, eB E, BREE ik EP. A re TK AKA beer_ 
styte_id。 最 终 向 量 的 长 度 将 是 这 个 值 。 接 着 ， 我 们 设置 了 一 个 场景 ， 即 每 个 被 评价 的 啤 
酒 风格 的 平均 评价 。 接 着 ， 我 们 将 被 评价 过 的 beer_style_id 设 为 1。 


最 后 ， 我 们 进入 实际 的 回归 问题 ， 正 是 在 这 里 我 们 尝试 着 将 综合 评价 映射 到 啤酒 风格 。 从 
这 里 开始 ， 我 们 对 收缩 参数 进行 迭代 ， 直 到 和 矩阵 可 逆 ， 以 便 我 们 进行 回归 计算 。 最 终 ， 我 
们 找到 斜率 参数 并 将 其 返回 。 


你 可 能 想 知道 我 们 用 这 个 斜率 参数 可 以 做 什么 。 它 只 是 一 个 关于 某 人 对 某 种 啤酒 喜好 程度 
的 斜率 。 我 们 可 将 其 存 人 表格 user_preferences 来 对 用 户 偏好 持久 化 。 该 表格 中 包含 了 
beer_style_id 和 一 个 偏好 值 。 从 该 表 中 ， 我 们 可 图 形 化 地 从 最 顶端 的 偏好 移动 到 其 他 也 
对 同一 品牌 的 啤酒 进行 评价 并 且 也 喜欢 它 的 评论 者 。 


这 是 一 种 形式 的 协同 过 滤 。 我 们 识别 了 用 户 的 偏好 。 利 用 它 ， 我 们 可 在 图 中 移动 到 下 一 个 
用 户 。 


96.5 ”利用 用 户 偏 好 实现 协同 过 滤 
为 了 实现 某 种 形式 的 协同 过 滤 ， 我 们 希望 找到 具有 相似 口味 的 用 户 ， 然 后 找到 他 们 所 喜爱 
的 、 我 们 尚未 尝试 过 的 商品 。 为 此 ， 我 们 需要 编写 下 列 代 码 : 


# lib/models/reviewer.rb 


class Reviewer < Sequel: :Model 
def friend 
skip_these = styles_tasted - [favorite.id] 


-A 
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someone_else = UserPreference.where( 
"beer_style_id = ? AND beer_style_id NOT IN ? AND reviewer_id != ?', 


favorite.id, 
skip_these, 
self.id 


).order(:preference).last.reviewer 


end 


def styles_tasted 


reviews.map { |r| r.beer.beer_style_id }.uniq 


end 


def recommend_new_style 
UserPreference.where( 
"beer_style_id NOT IN ? AND reviewer_id = ?', 


styles_tasted, 


friend.id 


).order(:preference).last.beer_style 


end 
end 


这 些 代 码 会 生成 一 个 方法 recommand_new_style, 


它 会 告知 我 们 一 种 要 品尝 的 新 风格 。 最 精 


华 的 部 分 在 于 我 们 不 需要 显 式 地 进行 测试 ， 因 为 我 们 已 经 对 偏好 进行 了 测试 。 这 便 是 我 们 


所 需要 的 全 部 。 


9.7 ”小结 


核 岭 回归 方法 是 一 种 用 于 快速 找到 病态 问题 (E 
EVO LH, FPA 


ua 


有 用 工具 。 这 种 问题 经 


常 在 订 


用 其 他 方法 ， 但 岭 回归 绝对 是 一 种 性 能 极 佳 的 工具 。 


ANAE Ms 岭 回 归 非 常 强大 : 我 们 找到 了 对 啤 


0 变量 x 的 维 数 高 于 观测 量 的 数目 ) 的 解 的 


价 感到 厌烦 而 离开 。 虽 然 你 也 可 以 使 


插 酒 风格 的 偏好 ， 并 实现 了 一 种 协同 过 庆 算 


法 。 在 计算 完 偏好 后 ， 该 算法 可 找到 相似 的 偏好 ， 并 据 此 向 我 们 做 出 推荐 。 
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有 时 ， 无 论 一 个 算法 本 身 有 多 好 ， 都 无 法 奏效 。 有 了 时 情况 甚至 更 糟 ， 用 它 完 全 无 法 得 到 任 
何 有 意义 的 结果 。 数 据 中 可 能 含有 大 量 噪声 ， 有 时 要 找到 问题 的 来 源 几 乎 是 不 可 能 的 。 本 
章 将 介绍 能 够 提升 已 有 算法 性 能 的 方法 ， 包 括 选 择 更 好 的 特征 ， 以 及 将 特征 变换 为 新 的 特 
征集 。 为 此 ， 我 们 对 与 交叉 验证 或 产品 监测 有 关 的 度量 指标 进行 了 监测 。 


在 模型 改进 策略 方面 ， 本 章 有 些 “ 自 助 餐 ”的 味道 。 这 是 因为 修正 模型 有 很 多 方法 。 


10.1 维 数 灾难 问题 

前 面 介 绍 过 ， 维 数 灾 难 对 于 基于 距离 的 机 器 学 习 算 法 是 一 个 很 大 的 问题 。 一 般 而 言 ， 当 维 
数 升 高 时 ， 数 据 之 间 的 平均 距离 也 会 增 大 。 我 们 以 图 10-1 为 例 ， 可 以 看 到 该 图 中 的 球 心 位 
于 坐标 原点 (0,0,0)。 
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图 10-1; 对 于 三 维 问题 ， 数 据点 的 平均 距离 为 1， 因 为 数据 都 位 于 一 个 完美 的 单位 球面 上 


这 些 点 位 于 三 维 空间 时 ， 各 点 的 平均 距离 为 1， 但 如 果 将 这 些 数据 
会 有 什么 变化 ? 结果 非常 富有 启发 性 (参见 图 10-2)。 


Jus 
PLR 


到 二 维 空间 ， 情 况 


10-2: 对 于 二 维 情形 ， 数 据点 的 平均 距离 变 为 0.74 


ah = 
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在 上 图 中 ， 左 侧 是 一 个 单位 球 。 这 个 单位 球 是 用 位 于 其 外 轮 廊 上 的 一 些 随 机 点 创建 的 。 右 
侧 是 一 个 圆 ， 但 它 实 际 上 是 左 侧 的 单位 球 投影 到 二 维 空间 的 结果 。 由 于 左 图 是 一 个 单位 
球 ， 因 此 各 数据 点 之 间 的 平均 距离 为 1， 而 在 右 图 的 圆 中 ， 各 数据 点 的 平均 距离 则 变 为 
0.74。 这 意味 着 投影 会 使 数据 的 维 数 降低 ， 而 数据 点 之 间 的 平均 距离 会 变 小 。 在 第 3 章 
中 ， 我 们 通过 在 特征 提取 环节 引入 SURF 算 子 来 解决 这 个 问题 。 我 们 并 不 试图 找到 所 有 像 
素 的 最 近邻 ， 而 是 需要 使 用 一 个 较 小 的 数据 集 。 据 我 们 所 知 ， 避 免 维 数 灾难 的 唯一 途径 是 
降 维 。 


下 面 将 讨论 两 种 用 于 克服 维 数 灾难 的 方法 : 特征 选择 和 特征 变换 。 


pA ` 
10.2 ”特征 选择 
我 们 不 妨 先 来 攻 虑 一 些 没 有 实际 意义 的 数据 。 比 方 说 ， 我 们 希望 测量 天 气 数据 ， 并 希望 能 
够 在 给 定 三 个 变量 (咖啡 消耗 量 、 冰 沿 凌 消耗 量 和 季节 ) 的 条 件 下 预测 温度 。 详 情 请 参阅 
表 10-1。 


表 10-1: 与 Matt 的 冰激凌 和 咖啡 消耗 量 相关 的 西雅图 天 气 数据 


平均 温度 Matt 的 咖啡 消耗 量 Matt 的 冰激凌 消耗 量 月 份 
47F 4 2 1H 
50F 4 2 2H 
54F 4 3 3 H 
58F 4 3 4H 
65F 4 3 5H 
70F 4 3 6 H 
76F 4 4 7H 
76F 4 4 8 H 
71F 4 4 9 月 
60F 4 3 10 A 
51F 4 2 11 月 
46F 4 2 12 月 


从 该 表 可 以 看 出 ， 我 每 天 大 约 要 喝 四 杯 咖啡 。 我 在 夏季 会 吃 更 多 的 冰激凌 ， 那 时 气温 通常 
偏 高 一 些 (如 图 10-3 所 示 )。 
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图 10-3: 我 一 年 的 冰激凌 消耗 量 情况 


我 们 知道 ， 季 市 是 引起 气温 变化 的 原因 之 一 。 通 常 夏 季 温 度 较 高 ， 而 冬季 温度 较 低 。 这 是 
因为 太阳 处 在 天 空中 位 置 的 不 同 。 冰 激 凌 消耗 量 并 不 重要 ， 咖 啡 消耗 量 也 不 重要 ， 但 冰 激 
凌 消 耗 量 与 较 热 的 月 份 的 确 存 在 某 种 相关 性 。 


但 这 里 要 意识 到 的 是 ， 我 们 有 一 个 不 相关 特征 ， 它 会 使 数据 向 它 偏 斜 ， 我们 有 一 个 组 成 变 
量 ， 它 实际 上 是 模型 外 其 他 变量 的 组 合 ， 最 后 我 们 有 一 个 信号 ， 但 它 是 月 份 。 

例如 ， 我 们 希望 随机 选取 一 个 变量 子 集 ， 并 测试 是 否 有 性 能 提升 。 我 们 的 确 可 以 这 样 做 。 
这 种 做 法 称 为 随机 特征 选择 ， 它 通常 需要 花费 大 量 时 间 。 其 原因 在 于 数据 在 较 低 维 的 空间 
中 具有 良好 的 行为 。 因 此 ， 即 便 我 们 采用 随机 降 维 的 方式 ， 数 据 本 身 也 得 到 了 改进 。 
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这 种 降 维 方法 的 基本 思想 是 随机 选取 一 个 数据 子 集 ， 然 后 将 模型 运用 于 该 子 集 。 随 机 特征 
选择 可 能 是 最 简单 的 模型 改进 方法 之 一 。 


但 这 种 做 法 有 一 个 很 大 的 问题 ， 即 效率 太 低 。 不 幸 的 是 ， 将 特征 选择 包 事 在 模型 中 需要 花 
费 大 量 时 间 。 这 是 因为 你 需要 随机 抽取 数据 ， 选 择 某 个 子 集 ， 接 着 运行 你 的 模型 ， 然 后 在 
测试 其 拟 合 效 果 。 正 如 你 所 预计 的 ， 这 个 过 程 需要 花费 很 多 时 间 。 不 过 ， 对 于 天 近邻 算法 
和 其 他 快速 算法 ， 这 种 策略 可 能 已 经 足够 好 了 。 但 如 果 你 准备 为 一 个 神经 网 络 模型 提供 更 
好 的 数据 或 可 能 需要 花费 一 些 时 间 的 东西 ， 该 如 何 应 对 ? 在 这 种 情况 下 ， 我 们 可 以 对 数据 
进行 过 滤 ， 即 便 是 在 数据 送 入 算法 之 前 。 


10.3 ”特征 变换 


为 理解 特征 变换 ， 我 们 以 记录 食物 摄取 量 为 例 。 很 多 人 都 会 追踪 饮食 中 的 卡路里 情况 。 假 
设 你 希望 追踪 自己 何 时 有 饥饿 感 ， 何 时 没有 饥饿 感 。 因 此 ， 你 通过 一 份 日 志 来 记录 自己 一 
天 中 哪些 时 段 有 饥饿 感 ， 以 及 饥饿 的 程度 。 


唯一 的 问题 是 ， 在 记录 饥饿 情 况 期 间 ， 你 恰好 在 洛杉矶 和 夏威夷 两 地 之 间 往 来 。 你 收集 的 
数据 如 表 10-2 所 示 。 


表 10-2: 饥 钱 日 志 


ERRER 时 间 时 区 偏 移 
是 -8 
T 8 -10 
否 9 —8 
是 9 -10 
是 12 -8 
T 14 -10 
否 15 -8 
T 16 -8 
T 18 -10 
否 19 -10 
是 18 -8 
是 20 -10 


这 组 数据 中 含有 大 量 噪声 ， 何 时 产生 饥饿 感 非常 不 明确 ， 如 图 10-4 所 示 。 
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图 10-4: 该 图 所 呈现 的 趋势 非常 不 明确 
可 以 看 出 ， 你 的 饮食 似乎 不 存在 任何 模式 。 你 只 是 有 时 感到 饥饿 ， 有 了 时 不 饿 。 


em tii 起 ， 你 会 注意 到 你 每 天 会 在 三 个 时 段 感到 
HLR, ANT 点 、12 点 和 晚 6 点。 由 此 可 得 到 一 幅 与 上 图 完全 不 同 的 图 (如 图 10-5 所 示 )。 
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10-5: 特征 变换 为 时 区 偏 移 和 时 间 之 和 


实际 上 ， 还 有 一 种 更 好 的 方式 ， 即 借助 特征 变换 算法 。 特 征 变换 算法 有 多 种 类 型 ， 本 章 中 
我 们 将 只 关注 PCA 和 ICA., 


10.4 ER BR 

主 分 量 分 析 (Principle Component Analysis, PCA) 是 一 种 存在 已 久 的 方法 。 这 种 算法 只 关 
心 方差 最 大 的 方向 ， 并 将 其 定 为 第 一 主 分 量 。 这 与 回归 的 原理 非常 类 似 ， 因 为 后 者 的 核心 
也 是 确定 数据 映射 的 最 佳 方向 。 假 设 你 拥有 一 个 含 噪声 的 数据 集 ， 如 图 10-6 所 示 。 
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图 10-6: 散 点 图 中 的 主 分 量 


可 以 看 到 ， 这 个 数据 集 具有 明确 的 方向 ， 即 右上 方 。 如 果 要 确定 主 分 量 ， 显 然 应 当 是 右上 


方 ， 因 为 数据 在 这 个 方向 上 具有 最 大 的 方差 。 


第 二 主 分 量 与 第 一 主 分 量 正 交 ， 通 过 迭 代 ， 


便 可 将 数据 集 的 维度 变换 到 这 些 主 分 量 方向 上 。 
另 一 种 理解 PCA 的 方式 是 考虑 它 与 人 脸 图 像 的 关系 。 当 你 将 PCA 运用 于 一 组 人 脸 图 像 时 ， 


会 出 现 一 种 被 称 为 Eigenfaces 的 有 趣 结 果 (如 


图 10-7 所 示 )。 
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图 10-7; 由 剑桥 大 学 的 AT&T 人 脸 库 得 到 的 Eigenfaces 


虽然 这 些 图 像 看 起 来 有 些 怪异 ， 但 有 趣 的 是 它们 实际 上 是 对 所 有 训练 数据 取 平 均 而 得 到 的 
平均 脸 。 现 在 ， 我 们 暂时 不 去 实现 PCA， 而 是 要 待 到 下 一 节 实 现 ICA 时 一 起 实现 ， 因 为 
后 者 实际 上 是 依赖 PCA 的 。 


10.5 ”独立 分 量 分 析 


假设 你 正 参 加 一 个 聚会 ， 你 的 朋友 走 过 来 与 你 交谈 。 你 的 旁边 有 个 你 很 厌烦 的 人 在 唆 唆 不 
休 ， 而 房间 的 另 一 端 有 一 台 持 续 发 出 噪音 的 洗衣 机 (参见 图 10-8) 。 


唆 唆 不 休 的 人 你 友 | 


朋 
— 
| | 


ClothesWash5000 o o o 


图 10-8: 鸡尾酒 会 示例 
你 希望 听 清 楚 朋友 的 话 ， 因 此 会 选择 近 距 离 倾 听 。 作 为 人 类 ， 我 们 很 容易 区 分 洗衣 机 的 噪 
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PAA AHIR se, BATA ta RE WE ACB x — A? 


比方 说 ， 你 不 是 在 倾听 朋友 的 谈话 ， 而 是 有 一 段 录 音 ， 你 希望 将 背景 中 的 噪音 滤 除 。 那 
么 我 们 应 当 如 何 实现 这 个 目标 ?你 可 使 用 一 种 称 为 独立 分 量 分 析 (Independent Component 
Analysis, ICA) 的 算法 。 


从 技术 上 讲 ，ICA 最 小 化 的 是 互信 息 ， 或 两 个 变量 之 间 共 享 的 信息 。 直 观 上 看 ， 这 是 有 意 
义 的 : 从 混合 信号 中 找到 存在 差异 的 信号 。 


与 图 10-7 所 示 的 人 脸 识 别 示例 相 比 ，ICA 提取 的 是 什么 样 的 特征 ”与 Bigenfaces 不 同 ， 
ICA 提取 的 是 一 些 面部 特征 ， 如 鼻 、 眼 和 头发 等 。 


这 两 种 算法 对 于 数据 变换 都 非常 有 用 ， 并 可 对 信息 做 进一步 分 析 (参见 图 10-9). 


预 处 理 数据 PCA 了 映射 后 的 随机 数据 ICA 映 射 后 的 随机 数据 
uy 
= 
x 
z E z 
% z g ° 
Š Sa 
Bw © 
3 | 
= 
T 
ké: 
T 
—T tJ. tT 
-10 -05 00 05 1.0 -2 -l 0 1 2 -1.5 -05 05 1.5 
a$X{,1] a$X %*% a$Kl,1] a$S[,1] 


10-9; 利用 PCA 40 ICA 映射 后 的 随机 数据 


不 幸 的 是 ， 与 PCA 一 样 ， 也 不 存在 ICA 的 Ruby gem 包 。 不 过 ， 我 们 可 以 利用 “R in 
Ruby” gem 来 调用 人。 对 于 一 本 基于 Ruby 语言 的 机 器 学 习 书 籍 而 言 ， 这 绝对 是 一 种 “其 
诈 ” 行 为 ， 但 有 时 调用 其 他 语言 也 是 明智 之 举 。 当 然 ， 还 有 另 一 种 方案 ， 即 使 用 JRuby 和 
FastICA。 实 际 上 ， 这 也 正 是 R 语言 所 采用 的 。 


要 运行 本 章 示 例 ， 请 在 Github 上 获取 本 书 的 配套 代码 : https://github.com/ 


thoughtfulml/examples/tree/master/9-improving-models-and-data-extraction, 


为 正常 运行 示例 ， 你 还 需要 安装 R 软件 。 
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我 们 所 要 做 的 第 一 步 是 在 R 中 安装 FastICA。 为 此 可 键入 下 列 语句 : 


# example_1.rb 
require 'rinruby' 


R.eval(<<- R) 
install. packages("fastICA" ) 
Library(fastICA) 
S <- matrix(runif(10000), 5000, 2) 
A <- matrix(c(1, 1, - 1, 3), 2, 2, byrow = TRUE) 
X <- S %*% A 
a <- fastICA(X, 2, alg.typ = "parallel", fun = "logcosh", alpha = 1, 
method = "C", row.norm = FALSE, maxit = 200, 
tol = 0.0001, verbose = TRUE) 
par(mfrow = c(1, 3)) 
plot(a$X, main = "Pre-processed data") 
plot(a$X %*% a$K, main = "PCA components" ) 
plot(a$S, main = "ICA components" ) 
R 


至 此 ， 我 们 已 经 了 解 了 特征 变换 、 特 征 选 择 以 及 其 他 相关 内 容 。 下 面 我 们 进入 本 章 的 最 后 
在 产品 环境 中 监测 机 器 学 习 算 法 的 性 能 


10.6 监测 机 器 学 习 算 法 


本 书 介绍 了 测试 编号、 交叉 验证 和 奥 卡 姆 剃刀 准则 ， 但 极 少 涉及 代码 的 监测 。 sea 
产品 代码 看 起 来 已 经 足够 好 了 ， 这 只 能 说 明度 量 的 力度 不 够 。 对 于 机 器 学 习 ， 情 形 有 些 差 
异 : 我 们 不 能 因为 这 些 算 法 看 起 来 很 奇妙 就 在 部 署 之 后 停止 代码 测试 。 


我 们 可 利用 的 工具 通常 度量 的 是 精度 和 查 全 率 ， 并 且 在 异常 出 现时 向 我 们 发 出 警告 。 稍 后 
我 们 还 将 介绍 一 种 度量 均 方 误差 的 在 线 方法 。 


10.6.1 精度 与 查 全 率 : 垃圾 邮件 过 滤 

你 是 否 还 记得 我 们 的 垃圾 邮件 过 滤器 ?人 简 言 之 ， 我 们 希望 将 每 封 邮件 标记 为 垃圾 邮件 或 普 
通 邮 件 。 由 于 电子 邮件 非常 重要 ， 所 以 我 们 宁愿 精度 低 一 些 ， 即 让 某 些 垃圾 邮件 进入 收 件 
箱 ， 而 不 至 于 因 误 分 类 导致 重要 的 信息 丢失 。 


假设 我 们 认为 表 10-3 所 示 的 邮件 数据 符合 实际 情况 。 
表 10-3: 依据 经 验 得 到 的 垃圾 邮件 和 普通 邮件 分 类 结 


预测 为 普通 邮件 预测 为 垃圾 邮件 
普通 邮件 10 000 100 
垃圾 邮件 40 60 
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可 以 看 出 ， 我 们 将 10 000 封 普 通 邮 件 正 确 地 分 类 为 普通 邮件 。 不 幸 的 是 ， 有 100 封 普通 邮 
件 被 误 分 类 为 垃圾 邮件 。 


这 种 信息 十 分 有 价值 ， 在 进行 交叉 验证 时 ， 可 利用 它 来 优化 我 们 的 模型 。 但 如 果 我 们 希望 
进行 监测 ， 应 如 何 做 ?这 正 是 精度 (precision) 、 准 确 率 (accuracy) 和 查 全 率 (recall) 的 
用 武之 地 (如 图 10-10 所 示 )。 
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上 | 
1 
Na 
0 O G OO OSG fon nnn nnn OO 
0 20 000 40 000 60 000 80 000 1x105 
错 分 为 普通 邮件 的 垃圾 邮件 


10-10: 精度 、 查 全 率 和 准确 率 的 衰减 


精度 是 被 正确 分 类 的 垃圾 邮件 数目 与 被 预测 为 垃圾 邮件 的 数目 之 比 。 通 过 上 表 可 以 看 出 ， 
精度 为 60/160=3/8。 这 个 指标 的 确 不 高 。 这 意味 着 该 算法 会 给 我 们 提供 很 多 与 垃圾 邮件 不 
相关 的 样 例 。 因 此 ， 它 会 错误 地 认为 一 些 普通 邮件 是 垃圾 邮件 。 


准确 率 是 被 正确 分 类 的 样本 数 除 以 样本 总 数 。 因 此 ， 在 上 例 中 ， 准 确 率 为 (10 000+60)/ 
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(10 000+100+40+60) = 98.6%。 这 个 结果 看 起 来 不 错 ， 这 意味 着 有 98.6% 的 样本 的 分 类 结 
果 都 是 正确 的 。 本 书 大 量 使 用 了 这 个 比 指标 来 度量 错误 率 。 


最 后 ， 上 例 的 查 全 率 是 60/(60+40)=3/5。 这 意味 着 我 们 可 依据 分 类 结果 得 到 一 半 以 上 的 垃 
圾 邮件 ， 这 个 结果 是 令 人 满意 的 。 

这 些 度 量 对 于 交叉 验证 是 有 价值 的 ， 但 我 发 现 它们 更 适合 用 于 监测 。 当 用 户 有 交互 行为 ， 
并 将 更 多 数据 输入 该 算法 时 ， 记 录 所 有 这 些 指标 便 非 常 重 要 。 

例如 ， 假 设 现 有 垃圾 邮件 过 滤器 的 过 滤 效 果 不 够 令 人 满意 ， 而 人 们 不 断 地 将 新 的 普通 邮件 
标记 为 垃圾 邮件 。 这 会 对 我 们 的 度量 产生 什么 影响 ? 答案 可 从 表 10-4 中 找到 。 


表 10-4: 数据 支持 图 
被 错误 地 预测 为 普通 邮件 。 普通 邮件 的 精度 Bee 准确 率 


0 100% 100% 99% 
10 99% 85% 98.9% 
20 99% 75% 98% 
30 99.7% 66% 98% 
60 99.4% 50% 98% 
100 99% 37.5% 98% 


可 以 看 出 ， 就 准确 率 而 言 ， 假 负 例 对 于 包含 大 量 训练 样本 的 问题 影响 很 小 ， 但 对 查 全 率 则 
不 然 。 当 查 全 率 跌 至 50% 以 下 时 ， 模 型 将 不 可 用 ， 应 当 产 生 监 测 警 示 。 


10.6.2 ”混淆 矩阵 

我 们 已 经 讨论 过 了 假 的 和 正 的 预测 ， 但 对 此 其 实 还 有 一 个 一 般 性 的 术语 一 一 混 清 算 阵 
(confusion matrix)。 访 术语 与 被 正确 分 类 的 实例 有 关 。 因 此 ， 例 如 我 们 需要 将 啤酒 划分 为 
三 个 类 别 : Pilsner, Stout 和 Hefeweizen。 给 定 一 个 分 类 算法 ， 我 们 发 现 分 类 结果 如 表 10-5 
所 示 。 


表 10-5: 混淆 和 矩阵 


Pilsner Stout Hefeweizen 
Pilsner 20 1 3 
Stout 1 30 1 
Hefeweizen 5 1 10 


由 于 酒 的 种 类 不 尽 相 同 ， 因 此 我 们 的 算法 找到 了 一 个 适合 于 给 定 样 本 集 的 分 类 策略 。 依 据 
该 混淆 矩阵 ， 我 们 可 计算 查 全 率 、 精 度 和 模型 的 准确 率 。 
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例如 ，Stout 类 的 分 类 精度 为 30/32=93.75% ， 而 该 类 的 查 全 率 也 为 30/32=93.75%。 


不 幸 的 是 ， 


混淆 矩阵 有 一 个 缺陷 一 一 它们 仅 适 用 于 离散 分 类 问题 。 对 于 像 回 归 或 返回 一 个 


连续 变量 的 算法 ， 应 当 如 何 度 量 误差 ?为 此 ， 我 们 可 计算 均 方 误差 。 


10.7 


均 方 误差 


当 需 要 评价 某 个 预测 结果 为 连续 值 的 算法 时 ， 需 要 采取 与 上 述 不 同 的 方法 ， 即 度量 模型 的 


均 方 误差 。 


但 在 产品 环境 中 ， 要 计算 该 指标 是 有 一 定 难 度 的 ， 因 为 我 们 需要 保存 过 去 所 有 


的 分 类 结果 和 误差 。 实 际 上 ， 我 们 完全 可 以 使 用 其 他 策略 来 规避 这 一 问题 。 


例如 ， 我 1 


模型 ; 


计算 误差 : 


门 的 目标 是 计算 当 新 的 信息 到 来 时 系统 随时 间 变 化 的 均 方 误差 。 比 方 说 ， 有 如 下 


y = f(x) 


其 中 , y 为 实数 。 假 设 我 们 可 从 用 户 那 里 获取 一 些 信息 ， 如 他 们 给 出 的 评分 ， 因 此 我 们 可 


€=(y—y) 


这 里 对 误差 取 平 方 的 目的 是 使 误差 为 正 。 
在 很 多 人 来 看 ， 我 们 应 当 保存 所 有 的 误差 ， 并 按 下 式 计算 总 误差 : 


2 
i=0% 


但 我 们 完全 可 以 以 增 量 方式 计算 均 方 误差 。 我 们 首先 给 出 平均 误差 的 表达 式 : 


+ E2 十 …' +€, 
ee €1 €2 € 


n 


同样 ， 接 下 来 的 一 轮 均值 可 表示 为 : 


El1 十 E2? 十 … 十 En 十 En+l 
nt+1 


En+1 


现在 ， 如 果 将 第 一 个 式 子 乘 以 x， 可 将 第 二 个 式 子 改写 为 : 


n 六 En 十 En+1 


En+1 = 
n n+1 


这 意味 着 下 一 个 均值 等 于 前 一 个 均值 乘 以 所 使 用 的 实例 数目 ， 加 上 当前 误差 ， 并 除 以 到 目 
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前 为 止 的 实例 总 数 。 


因此 ， 比 方 说 我 们 通过 10 次 迭代 得 到 当前 均 方 误差 为 2。 我 们 在 第 11 次 迭代 时 发 现 平方 
误差 为 100。 这 意味 着 新 的 均 方 误差 为 (2*10+100)/11 = 10.9, 


这 意味 着 我 们 很 容易 编写 用 于 在 产品 代码 中 监测 均 方 误差 的 程序 。 


# incremental_meaner.rb 


class IncrementalMeaner 
attr_reader :current_mean, :n 
def initialize 
@current_mean = 0 


@ = 0 
@mutex = Mutex. new 
end 


def add(error) 
@mutex. synchronize { 
@current_mean = ((@n * @current_mean) + error) / (@n + 1. 0) 
@n += 1 
@current_mean 


} 
end 
end 


10.8 产品 环境 的 复杂 性 


正如 有 些 人 所 言 ， 任 何 会 出 错 的 事情 都 有 可 能 出 错 。 对 于 产品 环境 尤其 如 此 。 我 们 可 进行 
交叉 验 证， 测试 我 们 的 接口 ， 并 确定 我 们 的 模型 是 否 表现 良好 ， 但 对 于 产品 环境 而 言 ， 仍 
存在 月 江 的 可 能 。 用 户 输入 我 们 无 从 优化 ， 因 为 最 有 趣 的 事情 都 是 人 做 出 的 。 因 此 ， 对 均 
方 误差 以 及 精度 、 查 全 率 等 度量 构建 监测 程序 ， 对 于 度量 算法 性 能 非常 重要 。 

要 进行 监测 ， 还 可 利用 一 种 体系 组 件 ， 即 在 算法 中 需要 引入 反馈 环 。 换 言 之 ， 我 们 需要 对 
某 些 内 容 进行 测试 。 否 则 ， 代 码 将 无 法 正常 工作 ， 而 最 终 网 站 中 的 信息 缺乏 变化 ， 如 一 潭 
死水 ， 从 而 变 得 毫 无 用 处 。 最 后 ， 用 户 体验 才 是 我 们 试图 借助 机 器 学 习 算法 加 以 优化 的 。 


10.9 “小结 

本 章 介 绍 了 多 种 改进 已 有 模型 的 方法 。 有 时 ， 可 以 只 选择 那些 表现 更 好 的 特征 ， 有 事 则 需 
要 对 已 有 特征 进行 变换 。 但 最 重要 的 是 确保 我 们 依据 某 个 基准 对 结果 进行 度量 ， 并 在 产品 
环境 中 或 通过 用 户 监 测 模型 是 否 正常 。 
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第 11 章 
结语 


下 面 我 们 进入 本 书 的 最 后 一 章 。 到 目前 为 止 ， 你 对 机 器 学 习 的 理解 很 可 能 仍然 不 及 机 器 学 
习 专 业 的 博士 那样 深刻 ， 但 我 希望 你 有 所 收获 。 我 希望 ， 对 于 机 器 学 习 所 擅长 解决 的 那些 
问题 ， 你 已 培养 了 一 种 思维 过 程 。 我 坚信 ， 测 试 是 有 效 使 用 这 种 科学 方法 的 唯一 途径 。 这 
正 是 现代 社会 之 所 以 存在 的 原因 ， 测 试 还 有 助 于 我 们 编写 高 质量 的 代码 。 


当然 ， 要 想 对 一 切 问题 编写 测试 是 不 大 可 能 的 ， 但 保持 这 种 习惯 至 关 重 要 。 我 希望 你 已 经 
掌握 了 一 些 将 这 种 习惯 运用 于 机 器 学 习 问题 的 方法 。 本 章 将 从 更 高 的 层次 来 讨论 之 前 介绍 
过 的 各 种 方法 ， 我 还 将 向 你 推荐 一 些 阅 读 材料 ， 以 便 你 更 深入 地 开展 机 器 学 习 研 究 。 


11.1 机 器 学 习 算法 回顾 


我 们 之 前 曾经 介绍 过 ， 机 器 学 习 方 法 可 分 为 三 大 类 : 有 监督 学 习 、 无 监督 学 习 和 强化 学 习 

(参见 表 11-1)。 本 书 并 未 涵盖 强化 学 习 ， 但 鉴于 你 目前 已 经 具备 了 良好 的 基础 ， 我 强烈 建 

议 你 对 其 进行 研究 。 在 本 章 的 最 后 ， 我 会 向 你 推荐 一 些 有 关 强 化 学 习 的 阅读 材料 。 

表 11-1: 机 器 学 习 方 法 的 类 别 

类 别 描述 

有 监督 学 习 有 监督 学 习 是 机 器 学 习 中 最 常见 的 类 型 。 它 本 质 上 是 一 种 函数 逼近 。 我 们 试图 将 数据 点 映射 

为 一 个 模糊 函数 。 通 过 优化 ， 我 们 希望 依据 训练 数据 拟 合 出 一 个 与 未 来 数据 取得 最 佳 逼近 效 

果 的 函数 。 该 类 方法 之 所 以 称 为 “有 监督 方法 "， 是 因为 它们 需要 接收 一 个 训练 集 或 学 习 集 

无 监督 学 习 无 监督 学 习 只 分 析 数据 ， 而 不 向 某 个 了 映射 。 该 类 方法 之 所 以 称 为 “无 监督 方法 ”"， 是 因为 
它们 并 不 知道 输出 结果 应 为 何 物 ， 而 是 需要 自己 提供 

强化 学 习 ” 强化 学 习 与 有 监督 学 习 相似 ， 但 会 对 每 一 步 生 成 一 个 “回报 ”"。 例 如 ， 好 比 一 只 在 迷宫 中 寻 
找 奶 酷 的 老鼠 ， 它 希望 找到 奶酪， 但 绝 大 多 数 时 候 它 不 会 得 到 任何 奖励 ， 除 非 最 终 找 到 奶酪 
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对 于 上 述 每 类 方法 ， 一 般 都 有 两 类 偏差 。 一 种 是 约束 偏 置 (restriction bias), ， 另 一 种 是 偏 
好 (preference) 。 约 束 偏 置 限制 的 是 算法 本 身 ， 而 偏好 则 反映 了 算法 适用 于 解决 何 种 问题 。 


所 有 这 些 信息 (如 表 11-2 所 示 ) 都 有 助 于 我 们 确定 是 否 应 当选 择 某 种 算法 。 
表 11-2: 机 器 学 习 算 法 和 矩阵 


算法 类 型 类 别 ARAE RERE 
KNN 有 监督 学 习 基于 实例 的 “一 般 说 来 ，KNN 适合 度量 适 于 求解 基于 距离 的 问题 
基于 距离 的 逼近 ， 易 受 维 
数 灾难 的 影响 
ARIUN 。 ”有 监督 学 习 概率 的 。 ”适用 于 那些 输入 相互 独立 适用 于 那些 各 类 概率 值 为 正 的 问 
的 问题 是 
SVM 有 监督 学 习 决策 面 ”适用 于 两 类 分 类 中 具有 明 适用 于 两 类 分 类 问题 
确 界限 的 问题 
神经 网 络 有 监督 学 习 非 线性 函数 几乎 没有 约束 偏 轩 适合 二 元 输入 问题 
逼近 
( 核 ) 岭 回 归 ”有 监督 学 习 回归 对 所 能 解决 的 问题 具有 很 适用 合 于 连续 变量 
低 的 约束 偏 轩 
隐 马 尔 科 夫 模 型 有 监督 /无 无 后 效 性 ”适用 于 那些 符合 马尔 科 夫 适用 于 时 间 序 列 数据 和 无 记忆 的 
监督 假设 的 系统 信息 信息 
RX 无 监督 RA 无 限制 适用 于 给 定 某 种 形式 的 距离 (Ek 
氏 距 离 、 马 氏 距 离 或 其 他 距离 ) 
时 ， 数 据 本 身 具有 分 组 形式 
过 滤 无 监督 特征 变换 EMI 适用 于 数据 中 有 大 量变 量 需要 过 
滤 的 场合 


11.2 ”如 何 利用 这 些 信息 来 求解 问题 

利用 表 11-2 所 示 的 算法 和 矩阵， 我 们 可 明确 如 何 解 决 一 个 给 定 问题 。 例 如 ， 对 于 确定 菜 人 居 
住 的 社区 这 样 的 问题 ，KNN 便 是 一 个 很 好 的 选择 ， 而 朴素 贝 叶 斯 分 类 模型 则 丝毫 派 不 上 
用 场 。 但 朴素 贝 叶 斯 分 类 模型 可 以 确定 情绪 或 其 他 类 型 的 概率 。 对 于 寻求 两 类 数据 划分 边 
界 的 问题 ， 支 持 向 量 机 算法 则 非常 适合 ， 而 且 不 易 受 维 数 灾难 的 影响 。 因 此 ， 对 于 拥有 大 
量 特征 的 文本 问题 ， 支 持 向 量 机 通常 都 是 很 好 的 选择 。 神 经 网 络 可 以 求解 从 分 类 到 自动 驾 
驶 这 样 范围 很 广 的 问题 。 核 岭 回 归 则 是 向 线性 回归 模型 中 添加 了 一 种 简单 的 技巧 ， 并 且 能 
够 找到 曲线 的 均值 。 隐 马尔 可 夫 模 型 能 够 追踪 乐谱 ， 标 注 词性 ， 并 适用 于 其 他 类 似 于 系统 
的 应 用 。 
聚 类 算法 适合 于 那些 不 含 明 确 输出 的 数据 分 组 问题 。 这 类 算法 对 于 数据 分 析 非 常 有 帮助 ， 
也 可 用 于 构建 数据 库 或 高 效 地 保存 数据 。 过 滤 方 法 非常 适用 于 克服 维 数 灾难 。 在 第 3 章 
中 ， 为 将 所 提取 到 的 像素 转换 为 特征 ， 我 们 曾 大 量 使 用 了 该 类 方法 。 
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本 书 尚 未 谈 及 的 一 点 是 ， 学 习 这 些 算法 仅仅 是 一 个 开始 。 最 重要 的 是 ， 我 们 应 当 认 识 到 ， 
选择 什么 方法 并 不 是 最 关键 的 ， 要 尝试 解决 的 问题 才 是 最 重要 的 。 这 正 是 我 们 使 用 交叉 验 
证 、 度 量 精度 、 查 全 率 和 准确 率 的 原因 。 对 每 一 个 步骤 进行 检查 和 测试 ， 保 证 了 我 们 至 少 
在 接近 更 优 的 答案 。 

我 建议 你 了 解 更 多 的 机 器 学 习 模 型 ， 并 思考 如 何 将 测试 应 用 于 这 些 方 法 。 大 多 数 算法 都 内 
置 了 相关 的 测试 ， 但 为 了 编写 高 质量 的 可 随时 间 学 习 的 代码 ， 作 为 人 类 ， 我 们 也 需要 对 自 
己 的 工作 进行 检查 。 


KY F3 es, 之 
11.3 ”未 来 的 学 习 路 线 
至 此 ， 我 们 的 学 习 之 旅 才 刚刚 开始 。 机 器 学 习 是 一 个 快速 发 展 的 领域 。 我 们 可 以 学 习 如 何 
利用 深度 学 习 网 络 来 实现 自动 驾驶 ， 以 及 如 何 利 用 受 限 玻 尔 兹 曼 机 来 对 像 健 康 问 题 这 样 的 
问题 进行 分 类 。 机 器 学 习 的 未 来 无 比 光明 。 通 过 阅读 本 书 ， 你 已 经 黄 定 了 良好 的 基础 ， 可 
以 研究 更 深入 的 子 话题 ， 如 强化 学 习 、 深 度 学 习 、 人 工 智 能 以 及 更 复杂 的 机 器 学 习 算 法 。 


有 太 多 的 信息 和 资料 等 待 你 去 研究 。 下 面 给 出 一 些 推荐 阅读 的 资源 : 


= 


。 Peter Flach, Machine Learning: The Art and Science of Algorithms That Make Sense of Data 
(Cambridge, UK: Cambridge University Press, 2012). 

e David J. C. MacKay, Information Theory, Inference, and Learning Algorithms (Cambridge, 
UK: Cambridge University Press, 2003). 

e Tom Mitchell, Machine Learning (New York: McGraw-Hill, 1997). 

。 Stuart Russell and Peter Norvig, Artificial Intelligence: A Modern Approach, 3rd Edition 
(London: Pearson Education, 2009). 

。 Toby Segaran, Programming Collective Intelligence: Building Smart Web 2.0 Applications 
(Sebastopol, CA: O’ Reilly Media, 2007). 

。 Richard Sutton and Andrew Barto, Reinforcement Learning: An Introduction (Cambridge, 
MA: MIT Press, 1998). 


此 外 ， 你 还 可 观看 在 线 课 程 或 YouTube 上 的 大 量 视频 资料 。 学 习 与 深度 学 习 有 关 的 讲义 是 非 
常 有 益 的 。Geoffrey Hinton 的 讲义 (http://videolectures.net/geoffrey_e_hinton/) 是 绝 佳 的 选择 ， 你 
也 可 参考 Andrew Ng 的 讲义 ， 包 括 他 的 Coursera 课程 (https://www.coursera.org/instructor/~35)。 


既然 对 机 器 学 习 已 经 有 所 了 解 ， 你 可 以 尝试 着 去 解决 一 些 不 是 非 黑 即 白 ， 而 是 涉及 很 多 
“灰色 ”的 问题 。 借 助 本 书 自始至终 所 贯穿 的 测试 驱动 的 方法 ， 你 在 观察 和 思考 这 些 问题 
时 ， 就 像 配 备 了 科学 的 眼镜 ， 而 且 不 再 局 限于 辨别 真 伪 ， 而 是 在 准确 性 上 前 进 了 一 大 步 。 
机 器 学 习 是 一 门 充满 魅力 的 学 科 ， 因 为 它 使 得 两 个 独立 的 思想 一 一 具有 坚实 理论 基础 的 计 
算 机 科学 和 含有 噪声 的 数据 一 一 整合 在 一 起 ， 形 成 了 无 比美 妙 又 和 谐 的 关系 。 


作者 介绍 


Matt Kirk 是 一 名 程序 员 ， 但 他 不 在 湾 区 生活 。 虽 然 从 事 程序 设计 工作 已 15 年 有 余 ， 但 无 
论 对 什么 事情 他 都 把 自己 当成 初学 者 。 他 对 学 习 和 构建 工具 的 热爱 是 其 职业 生涯 的 不 竟 动 
力 ， 这 些 工具 涉及 的 领域 极为 广泛 ， 包 括 金 融 、 创 业 、 和 钻石 、 重 型 机 械 和 伐木 。 本 书 不 止 
是 机 器 学 习 的 精粹 ， 而 且 也 浓缩 了 Matt 广泛 的 求知 欲 和 对 学 习 的 热爱 。 他 在 全 球 许多 会 议 
中 都 发 表 过 演说 ， 但 仍然 十 分 享受 每 日 的 编程 工作 。 在 编写 软件 之 余 ， 他 很 可 能 去 学 习 一 
些 新 事物 ， 无论 是 园艺 、 音 乐 、 木 艺 ， 还 是 改动 刹车 盘 。 


封面 介绍 


本 书 封面 中 的 动物 是 一 只 欧 亚 周 路， 正如 其 名 称 ， 这 个 物种 主要 生活 在 欧 亚 大 陆 。 雌 性 雕 
BHBRTAT4 英寸 ， 体 长 可 达 30 英寸 ， 雄 性 雕 鹭 的 体 长 和 翼 展 略 小 。 雕 鹭 是 现存 体型 
最 大 的 鸡 ， 其 耳 羽 非常 独特 ， 眼 睛 为 橙色 。 它 们 的 下 腹部 非常 柔软 ， 且 带 有 大 量 深 色 条 纹 。 


雕 苞 多 出 没 于 山地 或 松柏 林 中 ， 为 夜行 猛禽 ， 其 猎物 包括 小 型 哨 乳 类 动物 、 爬 贝 类 、 两 栖 
动物 、 鱼 类 、 体 型 较 大 的 昆虫 和 蛤 划 。 雕 欧 喜 欢 在 隐秘 的 地 点 繁衍 后 代 ， 如 山 至 或 岩石 
中 。 在 梨 穴 中 ， 它 们 间隔 产 卵 可 多 达 6 枚 ， 并 在 不 同 的 时 间 进 行 多 化 。 产 完 这 些 卵 后 ， 肉 
EMEA — SHEA, RRA, MAREN Se MEME SS hA ATA OP 
化 完毕 后 ， 它 们 还 会 在 接 下 来 的 五 个 月 中 亲 代 养育 。 


欧 亚 有 雕 缴 可 发 出 多 种 声音 ， 包 括 鸣叫 ， 其 声音 具有 很 强 的 穿 透 力 。 这 是 一 种 低沉 的 “ 鸣 
呼 ” 声 。 雄 性 雕 鸡 会 强调 第 一 个 音节 ， 而 雌性 雕 路 则 会 发 出 更 高 音调 的 “ 呢 呼 ”鸣叫 。 当 
感受 到 威胁 时 ， 雕 路 会 用 类 似 点 钞 的 声音 或 像 猫 那样 吐 东 西 来 表达 烦躁 不 安 的 情绪 ， 有 时 
也 会 采取 一 种 防御 性 的 姿势 ， 如 低头 、 将 羽毛 竖 起 、 展 开 尾羽 或 张开双 机 。 


健康 的 成 年 雕 鸡 没有 和 天敌， 这 使 得 它们 位 于 食物 链 的 最 顶端 ， 虽 然 它们 有 时 也 会 遭 到 更 小 
WRK (WEAR) 的 围攻 。 然 而 ， 这 个 物种 的 头号 死因 却 应 归咎 于 人 类 : (RSA 
怠 都 因 触 电 、 交 通 事故 和 射 杀 而 亡 。 在 野外 环境 中 ， 雕 唉 一 般 能 存活 20 年 左右 ; MAL 
饲养 的 雕 咏 ， 由 于 无 需 面 对 恶劣 的 自然 条 件 ， 寿 命 一 般 会 更 长 。 据 报道 ， 有 些 雕 怠 在 动物 
园 这 样 的 环境 中 会 存活 长 达 60 年 之 久 。 欧 亚 雕 鸥 的 栖息 地 横 跨 欧 亚 大 陆 1200 万 平方 英里 
的 土地 ， 据 估计 ， 其 种 群 数量 在 250 000 和 250 万 之 间 ， 是 国际 自然 保护 联盟 “关心 最 少 ” 
的 一 个 物种 。 通 常 在 人 迹 罕 至 的 地 带 ， 它 们 会 大 量 聚 集 。 不 过 ， 人 们 在 欧洲 的 一 些 农场 和 
类 似 公园 的 地 方 也 发 现 有 有 雕 器 出 没 。 


封面 图 出 自 Braukhaus Lexicon, 
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机 器 学 习 实践 : 测试 驱动 的 开发 方法 


本 书 介绍 在 开发 机 器 学 习 算 法 时 如 何 运用 测试 驱动 的 方法 ， 捕 捉 可 能 扰 
乱 正常 分 析 的 错误 。 这 本 实践 指南 从 测试 驱动 开发 和 机 器 学 习 的 基本 原 
理 讲 起 ， 展 示 了 如 何 将 测试 驱动 开发 运用 于 若干 机 器 学 习 算法 ， 包 括 朴 
素 贝 叶 斯 分 类 器 和 神经 网 络 。 


任何 机 器 学 习 算 法 都 有 一 些 传统 的 测试 方法 ， 但 它们 通常 都 不 会 考虑 编 
码 中 的 人 为 错误 。 借 助 测试 驱动 的 开发 方法 ， 你 便 不 会 像 其 他 研究 者 那 
样 言 目 依赖 机 器 学 习 的 结果 ， 而 能 够 降低 出 错 的 风险 ， 从 而 编写 出 整 
洁 、 稳 定 的 机 器 学 习 代 码 。 如 果 你 熟悉 Ruby 21， 就 已 经 做 好 了 阅读 本 书 
的 准备 。 

通过 阅读 本 书 ， 你 将 能 够 : 

E 在 编写 代码 之 前 ， 运 用 测试 驱动 的 方法 来 编写 和 运行 测试 

E 学 习 八 种 机 器 学 习 算 法 的 最 佳 用 法 ， 并 进行 权衡 

E 通过 动手 实践 真实 示例 ， 对 每 种 算法 进行 测试 

E 理解 测试 驱动 开发 和 对 解 进行 验证 的 科学 方法 之 间 的 相似 性 

E 获悉 机 器 学 习 的 风险 ， 如 对 数据 产生 欠 拟 合 或 过 拟 合 

E 探索 可 改善 机 器 学 习 模型 或 数据 提取 的 各 种 技术 


Matthew Kirk 是 Modulus 7 公司 的 创始 人 ， 该 公司 针对 数据 科学 和 Ruby 开 发 
提供 咨询 服务 。Matthew 从 事 程序 设计 工作 已 15 年 有 余 ， 在 全 球 许 多 技术 大 


会 上 做 过 机 器 学 习 和 数据 科学 主题 的 演讲 。 
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微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


